DeepSeek đang gây chấn động ngành công nghệ toàn cầu khi vẫn còn nhiều câu hỏi xoay quanh các mô hình AI nguồn mở hiệu suất cao của công ty, vốn được phát triển với chi phí chỉ bằng một phần nhỏ so với các đối thủ ở Mỹ.
Trong hội thảo trực tuyến China Future Tech hôm 10.2 do SCMP Plus tổ chức, các biên tập viên công nghệ của trang SCMP đã cùng người dẫn chương trình Jacques van Wersch thảo luận về những hiểu lầm phổ biến liên quan đến DeepSeek cũng như tác động từ thành tựu mà công ty này đã đạt được.
SCMP Plus là dịch vụ thành viên cao cấp của SCMP, tờ báo tiếng Anh hàng đầu có trụ sở tại Hồng Kông. SCMP Plus cung cấp nội dung độc quyền, các bài phân tích chuyên sâu, báo cáo đặc biệt, cũng như quyền truy cập vào các hội thảo trực tuyến, sự kiện và các lợi ích khác dành riêng cho thành viên. Đây là một phần trong chiến lược của SCMP nhằm cung cấp tin tức chất lượng cao và thu hút độc giả có nhu cầu tiếp cận thông tin chuyên sâu về Trung Quốc và thế giới.
DeepSeek có được chính phủ Trung Quốc tài trợ hay không?
Hiện không có hồ sơ công khai nào cho thấy DeepSeek đã nhận được tài trợ từ chính phủ Trung Quốc.
Công ty tư nhân này được thành lập như một dự án phụ của High-Flyer, quỹ đầu cơ định lượng (quantitative hedge fund) đã xây dựng các nguồn tài nguyên điện toán mạnh mẽ trong nhiều năm để phục vụ giao dịch thuật toán. Sau đó, những nguồn lực này được sử dụng để mở rộng trọng tâm của quỹ sang AI bằng cách thành lập DeepSeek vào năm 2023.
Trong chuyến thăm văn phòng của DeepSeek tại một tòa nhà thương mại ở thành phố Hàng Châu vào tháng 1, SCMP không thấy bất kỳ dấu hiệu nào đặc trưng của một công ty được chính phủ tài trợ, chẳng hạn trụ sở đặt trong công viên công nghệ cao.
Tuy nhiên, khi DeepSeek đang được xem như "người hùng dân tộc" giữa bối cảnh Mỹ tăng cường hạn chế sự tiến bộ của AI Trung Quốc, công ty có thể nhận được sự hỗ trợ từ chính phủ trong tương lai.
Chưa có hồ sơ công khai nào cho thấy DeepSeek đã nhận được tài trợ từ chính phủ Trung Quốc - Ảnh: Internet
Quỹ đầu cơ định lượng là một loại quỹ đầu cơ sử dụng mô hình toán học, thuật toán và AI để phân tích dữ liệu và ra quyết định đầu tư thay vì dựa vào cảm tính hoặc đánh giá chủ quan của con người.
Đặc điểm của quỹ đầu cơ định lượng
Dựa vào dữ liệu và thuật toán
Sử dụng dữ liệu tài chính, kinh tế và các chỉ báo thị trường để đưa ra quyết định giao dịch.
Áp dụng các mô hình toán học và AI để phát hiện cơ hội đầu tư.
Giao dịch tự động
Các quyết định mua/bán được thực hiện bởi hệ thống giao dịch thuật toán (algorithmic trading) mà không cần con người can thiệp.
Giao dịch tốc độ cao (High-Frequency Trading) có thể thực hiện hàng nghìn giao dịch chỉ trong vài giây.
Chiến lược đầu tư phức tạp
Arbitrage (kinh doanh chênh lệch giá): Tận dụng sự khác biệt giá giữa các thị trường.
Statistical Arbitrage (chênh lệch giá thống kê): Dựa vào phân tích thống kê để tìm ra các giao dịch có xác suất lợi nhuận cao.
Machine Learning & AI Trading: Ứng dụng AI để tìm quy luật trong dữ liệu tài chính.
Quản lý rủi ro cao
Hệ thống có thể cắt lỗ nhanh chóng nếu mô hình nhận thấy tín hiệu bất lợi. Tuy nhiên, rủi ro từ lỗi thuật toán hoặc sự kiện thị trường bất thường có thể gây thua lỗ lớn.
Vai trò của quỹ đầu cơ định lượng trong AI
Quỹ đầu cơ định lượng như High-Flyer (công ty mẹ của DeepSeek) thường sở hữu lượng lớn tài nguyên tính toán mạnh mẽ để phân tích dữ liệu và giao dịch thuật toán. Chính những nguồn lực này có thể được tái sử dụng để phát triển mô hình AI, giống cách DeepSeek sử dụng cơ sở hạ tầng từ High-Flyer để xây dựng các mô hình AI tiên tiến.
DeepSeek kiếm tiền bằng cách nào?
Hiện tại, hoạt động giao dịch định lượng của High-Flyer tạo ra đủ lợi nhuận để duy trì hoạt động cho DeepSeek. Đây là lý do tại sao DeepSeek có thể cung cấp các mô hình ngôn ngữ lớn của mình dưới dạng mã nguồn mở, cho phép bất kỳ ai sử dụng và chỉnh sửa miễn phí.
Trong giai đoạn đầu, DeepSeek cho biết không vội vàng tìm kiếm lợi nhuận mà tập trung vào nghiên cứu nền tảng cho AGI (trí tuệ nhân tạo tổng quát).
AGI là dạng AI có khả năng hiểu, học hỏi và thực hiện các nhiệm vụ đa dạng một cách linh hoạt, giống hay vượt trội con người. Không giống AI hẹp, vốn chỉ giỏi trong một lĩnh vực cụ thể (như nhận dạng giọng nói hoặc hình ảnh), AGI có khả năng áp dụng kiến thức và kỹ năng trong nhiều lĩnh vực khác nhau, từ đó giải quyết các vấn đề phức tạp một cách tự chủ và sáng tạo. OpenAI định nghĩa AGI là "một hệ thống có tính tự chủ cao, vượt trội hơn con người ở hầu hết công việc có giá trị kinh tế".
Tuy nhiên, giống các công ty AI tạo sinh khác, DeepSeek tính phí để truy cập các mô hình của mình thông qua giao diện lập trình ứng dụng (API), cho thấy công ty có triển vọng thương mại hóa công nghệ của mình.
Hôm 10.2, DeepSeek thông báo kết thúc giai đoạn 45 ngày áp dụng mức giá khuyến mãi cho dịch vụ API của mình, đồng thời tăng giá truy cập mô hình V3 trên các máy chủ công ty.
Các mô hình AI DeepSeek có vượt trội và đáng tin cậy hơn sản phẩm của OpenAI?
Mô hình ngôn ngữ lớn V3 và mô hình lý luận R1 của DeepSeek đạt thứ hạng cao trên nhiều bảng đánh giá hiệu suất, nhưng điều đó không đồng nghĩa chúng vượt trội hơn mô hình GPT-4o và o3 do OpenAI phát triển.
Một số bài kiểm tra cho thấy hiệu suất các mô hình DeepSeek ít nhất là tương đương với GPT của OpenAI.
Tuy nhiên, ý nghĩa lớn hơn của DeepSeek là cung cấp ứng dụng AI nội địa miễn phí cho Trung Quốc thay thế sản phẩm từ các công ty toàn cầu. Doanh nghiệp Trung Quốc có thể cần tránh các mô hình AI của Mỹ vì lo ngại về bảo mật và chi phí, do đó đột phá từ DeepSeek đóng vai trò quan trọng trong việc thu hẹp khoảng cách AI giữa Trung Quốc và phương Tây về mặt ứng dụng và triển khai.
DeepSeek tạo ra ảnh hưởng địa chính trị thế nào và có thể vượt qua các hạn chế xuất khẩu chip của Mỹ không?
Việc DeepSeek trỗi dậy đặt ra câu hỏi về tính hiệu quả từ các hạn chế xuất khẩu chip tiên tiến mà Mỹ áp đặt để ngăn cản quá trình đào tạo mô hình AI của Trung Quốc. Có thể Mỹ sẽ gia tăng các biện pháp hạn chế bán dẫn hơn nữa, nhưng cũng xuất hiện sự nhận thức ngày càng tăng về khả năng của Trung Quốc trong việc lách lệnh trừng phạt bằng cách đổi mới để vượt qua các rào cản phần cứng.
Tuy nhiên, chip AI của Nvidia vẫn rất quan trọng. High-Flyer đã mua hàng chục ngàn bộ xử lý đồ họa (GPU) của Nvidia trước khi chúng bị hạn chế bán tại Trung Quốc và sử dụng để đào tạo các mô hình AI của DeepSeek. Công ty khởi nghiệp này có khả năng sẽ phải tiếp tục dựa vào chip AI Nvidia vài năm nữa, vì các nhà sản xuất GPU Trung Quốc vẫn đang gặp khó khăn trong việc vượt qua những hạn chế công nghệ hiện tại.
Các hồ sơ cho thấy DeepSeek là một trong những đơn vị có nguồn lực mạnh nhất Trung Quốc để đào tạo AI. Ngay từ năm 2019, Liang Wenfeng (nhà sáng lập High-Flyer và DeepSeek) đã chi 200 triệu nhân dân tệ (27,8 triệu USD) để mua 1.100 GPU nhằm đào tạo các thuật toán giao dịch chứng khoán. High-Flyer cho biết trung tâm điện toán của DeepSeek vào thời điểm đó có diện tích tương đương một sân bóng rổ, khoảng 436,6 mét vuông.
Năm 2021, High-Flyer đã chi 1 tỉ nhân dân tệ để phát triển cụm siêu máy tính Fire-Flyer 2, được kỳ vọng đạt công suất 1.550 petaflop, theo trang web của quỹ. Hiệu suất này tương đương với một số siêu máy tính mạnh nhất thế giới.
Petaflop là một đơn vị đo lường hiệu suất tính toán của siêu máy tính, viết tắt của Peta Floating Point Operations Per Second (nghìn nghìn tỉ phép toán dấu phẩy động mỗi giây).
Trong cuộc phỏng vấn với trang tin công nghệ 36Kr (Trung Quốc) vào tháng 5.2023, Liang Wenfeng cho biết High-Flyer đã mua gần 10.000 GPU Nvidia, gồm cả dòng A100 tiên tiến nhất vào thời điểm đó, trước khi Mỹ áp đặt hạn chế xuất khẩu loại chip này sang Trung Quốc.
Một số nhà phân tích xác định rằng việc High-Flyer chi tiêu mạnh vào phần cứng là yếu tố quan trọng giúp DeepSeek trở thành "ngựa ô" trong cuộc đua AI toàn cầu.
Trong một báo cáo, hãng nghiên cứu SemiAnalysis (Mỹ) ước tính rằng tổng chi tiêu phần cứng của DeepSeek "vượt xa mức 500 triệu USD trong suốt lịch sử công ty", gồm cả chi phí nghiên cứu và phát triển cũng như tổng chi phí sở hữu phần cứng.
Theo SemiAnalysis, tổng chi tiêu vốn cho máy chủ của DeepSeek có thể đã lên đến 1,6 tỉ USD với khoảng 50.000 GPU Nvidia Hopper, gồm cả chi phí vận hành 944 triệu USD cho các cụm tính toán.
Dù vậy, các nhà phân tích lưu ý rằng sự đổi mới của DeepSeek trong lĩnh vực phần mềm đã chứng minh rằng hiệu suất mô hình không tỷ lệ thuận với số tiền mà công ty chi cho GPU đắt tiền.
Sơn Vân