Cho đến cuối tuần trước, Mỹ vẫn được coi là quốc gia dẫn đầu về AI khi sở hữu hàng loạt Big Tech và nền tảng về AI như ChatGPT của OpenAI, Gemini của Google, Llama của Meta...
Nhưng sự xuất hiện đột ngột của DeepSeek với năng lực AI ngang ngửa ChatGPT mặc dù được phát triển với chi phí chỉ bằng một phần nhỏ, đã khiến thị trường chứng khoán Mỹ rung chuyển với việc bán tháo cổ phiếu công nghệ.
Riêng NVIDIA đã mất 600 tỷ USD tài sản vốn hóa thị trường, tương đương mức giảm 17% giá trị cổ phiếu, trong phiên giao dịch hôm 27/1.
Vậy DeepSeek là gì và nó hoạt động như thế nào?
DeepSeek R1
Đây là công cụ chatbot do Trung Quốc sản xuất, sử dụng AI tương tự như ChatGPT. Chỉ trong vòng một tuần kể từ khi ra mắt, DeepSeek phiên bản R1 đã dẫn đầu bảng xếp hạng tải xuống trên kho ứng dụng App Store dành cho các công cụ AI.
Trong khi ChatGPT tốn hàng trăm triệu USD để phát triển, những người tạo ra DeepSeek tuyên bố họ chỉ chi chưa đến 5 triệu USD.
So với các chương trình mô hình ngôn ngữ lớn (LLM) khác như ChatGPT (OpenAI), Bard (Google), LaMDA (Google) và Llama (Meta), DeepSeek dường như có cách thực hiện khác biệt.
Ông Morgan Brown, một chuyên gia về AI, Phó chủ tịch phụ trách mảng AI của Dropbox, tác giả của Hacking Growth - một cuốn sách về cách các tập đoàn lớn quản lý những đột phá của mình, đã nêu ra một số điểm khác biệt của DeepSeek.
4 điểm khác biệt so với các mô hình chatbot
Thứ nhất, DeepSeek đã xây dựng "một hệ thống chuyên gia chuyên biệt cho từng tác vụ". Nếu như mô hình ngôn ngữ lớn truyền thống như ChatGPT có 1,8 nghìn tỷ tham số hoạt động liên tục cho mỗi truy vấn, thì DeepSeek có 671 tỷ tham số nhưng chỉ huy động 37 tỷ hoạt động cùng lúc - "giống như có một đội ngũ lớn nhưng chỉ gọi những chuyên gia mà bạn thực sự cần cho từng nhiệm vụ"
"Thay vì một AI khổng lồ cố gắng biết mọi thứ (giống như một người là bác sĩ, luật sư và kỹ sư), DeepSeek có các chuyên gia chuyên biệt chỉ thức dậy khi cần thiết" - theo giải thích của ông Morgan Brown.
Thứ hai, DeepSeek đã nghĩ lại cách diễn giải các thuật toán. Nếu như chatbot AI truyền thống viết mọi con số với 32 chữ số thập phân (32 bit) thì DeepSeek chỉ cần sử dụng 8 bit mà vẫn đầy đủ và chính xác. Điều này giúp DeepSeek tiết kiệm được 75% bộ nhớ so với các ứng dụng chatbot AI khác.
Thứ ba, hệ thống "nhiều mã thông báo". Nếu như AI truyền thông đọc mã thông báo theo kiểu từng từ một, thì DeepSeek đọc toàn bộ cụm từ cùng lúc, cho tốc độ nhanh gấp 2 lần và độ chính xác lên đến 90%. Khi xử lý hàng tỷ từ, điều này rất quan trọng.
Chi phí đầu tư cho AI của các công ty công nghệ lớn từ 2017 đến 2025. Nguồn: Bloomberg
Thứ tư, việc đào tạo các mô hình AI hiện nay rất tốn kém. Các con chip GPU của NVIDA dùng để đào tạo AI như A100 có giá khoảng 16.000 USD/chip, hay H100 có giá 30.000 USD/chip. Một hệ thống đào tạo và vận hành AI cần đến 100.000 GPU như vậy, nhưng DeepSeek chỉ cần sử dụng 2.000 GPU với chi phí khoảng 5 triệu USD. Lưu ý là công ty Trung Quốc này chỉ mua được các con chip H100 tùy chỉnh (cấp thấp) để tránh lệnh trừng phạt của Mỹ.
Thử nghiệm cho thấy mô hình của DeepSeek đã đánh bại ChatGPT-4 và Claude trong nhiều nhiệm vụ.
So sánh DeepSeek với ChatGPT-4
Nếu như chi phí đào tạo của của mô hình tương tự ChatGPT-4 là 100 triệu USD thì DeepSeek chỉ là 5 triệu USD.
GPU cần thiết cho hệ thống tương tự ChatGPT là 100.000 GPU, nhưng DeepSeek chỉ cần 2.000.
Chi phí API (giao diện xử lý ứng dụng): rẻ hơn 95%.
Hệ thống DeepSeek có thể chạy trên GPU chơi game thay vì phần cứng trung tâm dữ liệu, tương đương chi phí đầu tư cho một hệ thống tương tự DeepSeek là rất nhỏ.
Ý nghĩa của DeepSeek đối với tương lai ngành AI
DeepSeek sử dụng mã nguồn mở nên bất kỳ ai cũng có thể sử dụng để kiểm tra công việc của họ. Với sự công khai của các tài liệu kỹ thuật thì công việc này không đòi hỏi quá nhiều kỹ năng.
Như vậy, không chỉ các công ty công nghệ lớn mới có thể phát triển các hệ thống AI mạnh mẽ, không cần các trung tâm dữ liệu lớn, mà một công ty nhỏ chỉ cần một vài nghìn GPU tốt là có thể xây dựng được một mô hình AI mạnh mẽ.
Theo công bố, DeepSeek đã được xây dựng với một đội ngũ dưới 200 người, trong khi đội phát triển AI của các hãng như Meta lên tới hàng nghìn người mà mô hình AI lại không tốt bằng.
Trước khi DeepSeek xuất hiện, các công ty lớn đã đổ hàng tỷ USD để phát triển các mô hình AI riêng. Theo Bloomberg, Amazon dự kiến chi 75 tỷ USD cho trung tâm dữ liệu AI của mình trong giai đoạn 2024-2025, còn Meta dự kiến chi 65 tỷ USD cho các dự án liên quan đến AI vào năm 2025. Microsoft cho biết họ sẽ chi 80 tỷ USD cho các trung tâm dữ liệu AI trong năm tài chính này.
Riêng công ty NVIDIA sẽ mất đi rất nhiều lợi thế trên thị trường. Hoạt động kinh doanh của NVIDIA dựa vào việc bán các bộ GPU siêu đắt với biên lợi nhuận 90%. Khi các công ty nhỏ có thể làm mô hình AI với GPU chơi game thông thường thì giá trị vốn hóa thị trường của NVIDIA sẽ nhanh chóng tụt dốc.
Rõ ràng, với sự xuất hiện của DeepSeek, việc phát triển mô hình AI sẽ trở nên dễ dàng, dễ tiếp cận hơn. Sự cạnh tranh trên thị trường AI cũng tăng lên đáng kể. Chi phí cho phần cứng và cho phát triển AI sẽ giảm mạnh. Các mô hình AI mạnh mẽ sẽ đến với người dùng nhanh hơn tưởng tượng trước đây.
Đăng Khoa