Những nhân vật quan trọng trong lĩnh vực AI công nhận thành tựu của DeepSeek, nhưng cảnh báo không nên phóng đại thành công của công ty khởi nghiệp Trung Quốc này. Ngành công nghệ đang đánh giá tác động của các mô hình tiên tiến do DeepSeek phát triển với chi phí chỉ bằng một phần nhỏ so với thông thường.
Các nhân vật tầm cỡ trong ngành, từ Sam Altman (Giám đốc điều hành OpenAI) đến Andrew Ng (cựu lãnh đạo Baidu và Google) đã ca ngợi cách tiếp cận mã nguồn mở của DeepSeek sau khi công ty này tung ra hai mô hình AI tiên tiến là V3 và R1.
DeepSeek (có trụ sở tại thành phố Hàng Châu, thủ phủ tỉnh Chiết Giang, phía đông Trung Quốc) đã gây chấn động ngành AI toàn cầu với mô hình lập luận mã nguồn mở R1. Ra mắt vào ngày 20.1, R1 có khả năng tương đương với các mô hình mã nguồn đóng của OpenAI (“cha đẻ” ChatGPT) nhưng được cho phát triển với chi phí đào tạo thấp hơn đáng kể.
DeepSeek cho biết mô hình V3, ra mắt vài tuần trước R1, chỉ tốn gần 6 triệu USD để đào tạo. Tuyên bố này đã làm dấy lên lo ngại rằng các hãng công nghệ đang chi tiêu quá mức cho các bộ xử lý đồ họa (GPU) để đào tạo AI, dẫn đến việc cổ phiếu của Nvidia (nhà cung cấp chip AI hàng đầu) bị bán tháo hàng loạt vào tuần trước.
Khi đối thủ áp dụng một cách tiếp cận khác và thành công, đôi khi việc thay đổi hướng đi là điều nên làm. Đó là những gì Sam Altman nói rằng OpenAI sẽ thực hiện, theo một phiên hỏi đáp trên mạng xã hội Reddit hôm 1.1.
Cuộc thảo luận đề cập đến nhiều chủ đề liên quan đến AI, nhưng Sam Altman được hỏi nhiều nhất về DeepSeek.
Một người dùng Reddit đã hỏi liệu OpenAI có thể hiển thị “tất cả token suy nghĩ” hay không. Điều này đề cập đến chuỗi suy luận mà các mô hình AI mới sử dụng để chia nhỏ nhiệm vụ thành những bước nhỏ hơn, tương tự cách con người suy nghĩ khi giải quyết vấn đề phức tạp.
Mô hình o1 và o3 của OpenAI sử dụng phương pháp suy luận này, song không hiển thị bất kỳ bước suy nghĩ trung gian nào cho người dùng mà chỉ hiển thị câu trả lời cuối cùng.
Các mô hình suy luận của DeepSeek, chẳng hạn R1, hiển thị từng bước cho người dùng. Khi trang Insider thử nghiệm ứng dụng DeepSeek với cài đặt DeepThink (R1) hay Suy nghĩ sâu (R1), nó đã cung cấp khoảng 16 trang các bước toán học trước khi đưa ra câu trả lời đúng cho một câu hỏi khó.
Sam Altman nói rằng OpenAI sẽ làm theo cách tiếp cận của DeepSeek. “Vâng, chúng tôi sẽ sớm trình bày phiên bản hữu ích và chi tiết hơn nhiều về điều này. Cảm ơn R1 đã cập nhật cho chúng tôi", ông viết.
Sam Altman cho biết OpenAI sẽ áp dụng phương pháp AI mới của DeepSeek - Ảnh: Getty Images
Yann LeCun, Giám đốc khoa học AI của Meta Platforms, cho rằng bài học quan trọng nhất từ thành công của DeepSeek là giá trị của các mô hình AI mã nguồn mở so với mô hình độc quyền.
Các mô hình Llama của Meta Platforms chủ yếu là mã nguồn mở, cho phép bất kỳ ai truy cập các thông tin quan trọng như trọng số và tham số miễn phí. Việc chia sẻ cách hoạt động bên trong các mô hình AI như vậy giúp các nhà phát triển và nhiều công ty khác có thể tùy chỉnh chúng theo nhu cầu riêng.
Dù có tên là OpenAI nhưng đến nay, công ty này lại có cách tiếp cận khép kín hơn trong phát triển AI. Hầu hết các mô hình của OpenAI đều là độc quyền (nguồn đóng) và công ty khởi nghiệp này tính phí để truy cập.
Trong phiên hỏi đáp trên Reddit, Sam Altman được hỏi liệu OpenAI có cân nhắc phát hành một số trọng số mô hình và công bố các nghiên cứu hay không.
“Có, chúng tôi đang thảo luận về điều đó. Cá nhân tôi nghĩ rằng chúng tôi đã đi sai hướng của lịch sử trong vấn đề này và cần tìm ra một chiến lược nguồn mở khác. Không phải ai ở OpenAI cũng đồng tình quan điểm này và đây cũng không phải là ưu tiên cao nhất hiện tại của chúng tôi”, doanh nhân 39 tuổi người Mỹ trả lời.
Andrew Ng, người sáng lập và cựu lãnh đạo Google Brain, đồng thời là cựu Giám đốc Khoa học Baidu, cho rằng các sản phẩm từ DeepSeek và công ty Trung Quốc khác cho thấy nước này đang nhanh chóng bắt kịp Mỹ trong lĩnh vực AI.
“Khi ChatGPT ra mắt vào tháng 11.2022, Mỹ vượt xa Trung Quốc trong lĩnh vực AI tạo sinh, nhưng thực tế là khoảng cách này đã nhanh chóng bị thu hẹp trong hai năm qua”, Andrew Ng viết trên X.
“Với các mô hình như Qwen, Kimi, InternVL và DeepSeek, Trung Quốc rõ ràng đã thu hẹp khoảng cách với Mỹ. Trong một số lĩnh vực như tạo video, thậm chí đã có những thời điểm Trung Quốc dường như vượt lên dẫn đầu”, ông bình luận thêm.
Dòng mô hình Qwen do gã khổng lồ thương mại điện tử Alibaba phát triển, trong khi Kimi và InternVL lần lượt đến từ công ty khởi nghiệp Moonshot AI và Shanghai Artificial Intelligence Laboratory.
Shanghai Artificial Intelligence Laboratory là một viện nghiên cứu hàng đầu của Trung Quốc chuyên phát triển công nghệ AI tiên tiến. Phòng thí nghiệm này được chính phủ Trung Quốc hậu thuẫn và đóng vai trò quan trọng trong chiến lược AI của quốc gia, với trọng tâm là nghiên cứu các mô hình AI lớn, thị giác máy tính, xử lý ngôn ngữ tự nhiên và ứng dụng AI trong nhiều lĩnh vực khác nhau.
Shanghai Artificial Intelligence Laboratory cũng hợp tác chặt chẽ với các hãng công nghệ lớn như Alibaba, Tencent, Baidu và Huawei, cũng như các viện nghiên cứu và trường đại học danh tiếng. Một trong những dự án đáng chú ý của họ là mô hình InternVL, hệ thống AI tiên tiến trong lĩnh vực thị giác máy tính và hiểu biết ngữ cảnh hình ảnh.
“Nếu Mỹ tiếp tục kìm hãm mã nguồn mở, Trung Quốc sẽ thống trị phần này của chuỗi cung ứng và nhiều doanh nghiệp sẽ phải sử dụng các mô hình phản ánh giá trị của Trung Quốc nhiều hơn là của Mỹ”, Andrew Ng cảnh báo.
Andrew Ng cảnh báo rằng nếu Mỹ tiếp tục kìm hãm mã nguồn mở, Trung Quốc sẽ thống trị phần này của chuỗi cung ứng - Ảnh: SCMP
Việc DeepSeek được công nhận thành tựu diễn ra trong bối cảnh các hãng công nghệ lớn Mỹ đang “tích cực quảng bá toàn diện” công ty khởi nghiệp Trung Quốc này, theo nhà phân tích chứng khoán Shawn Kim của hãng dịch vụ tài chính Morgan Stanley.
Nvidia đã cung cấp mô hình DeepSeek R1 cho người dùng dịch vụ vi mô NIM của mình từ 30.1. Trong khi Microsoft (nhà đầu tư lớn vào OpenAI) tuần trước đã tích hợp R1 vào nền tảng điện toán đám mây Azure và nền tảng lưu trữ mã nguồn GitHub. Amazon cũng cho phép khách hàng tạo ứng dụng với R1 thông qua Amazon Web Services.
Tuy nhiên, một số chuyên gia cho rằng tầm quan trọng từ bước đột phá của DeepSeek có thể đã bị thổi phồng.
Yann LeCun cho rằng thật sai lầm khi nghĩ rằng “Trung Quốc đang vượt qua Mỹ trong AI” chỉ vì DeepSeek.
“Cách hiểu đúng là các mô hình mã nguồn mở đang vượt qua các mô hình nguồn đóng độc quyền”, ông viết trên mạng xã hội Threads.
DeepSeek, được tách ra từ quỹ đầu tư High-Flyer Quant của nhà sáng lập Liang Wenfeng vào tháng 5.2023, vẫn phải đối mặt với nhiều nghi ngờ về chi phí thực sự và phương pháp đào tạo mô hình AI của mình.
Giáo sư khoa học máy tính Zheng Xiaoqing tại Đại học Phúc Đán chỉ ra con số gần 6 triệu USD đào tạo mô hình V3 được DeepSeek báo cáo không bao gồm cả các chi phí liên quan đến nghiên cứu và thử nghiệm trước đó.
Thành công của DeepSeek đến từ “tối ưu hóa kỹ thuật”, điều này “sẽ không có tác động lớn đến việc mua hoặc vận chuyển chip”, Zheng Xiaoqing nói trong cuộc phỏng vấn với tờ National Business Daily (Trung Quốc).
DeepSeek được cho phải dùng kỹ thuật distillation (chưng cất) dữ liệu từ OpenAI mới có thể xây dựng mô hình AI chi phí thấp. Distillation trong AI là kỹ thuật học máy trong đó một mô hình nhỏ hơn, đơn giản hơn (gọi là student model – mô hình học sinh) được huấn luyện để bắt chước hiệu suất của mô hình lớn hơn, phức tạp hơn (gọi là teacher model – mô hình giáo viên).
Việc chưng cất trí tuệ từ mô hình AI của người khác mà không có sự cho phép bị coi là không đúng đắn trong một số cộng đồng nghiên cứu, nhưng thực tế lại xảy ra rất nhiều, theo Nick Vincent, phó giáo sư khoa học máy tính tại Đại học Simon Fraser (Canada). Ông là chuyên nghiên cứu cách dữ liệu được sử dụng trong AI.
Trong bài nghiên cứu về mô hình R1, DeepSeek đề cập đến việc sử dụng chưng cất với các mô hình mã nguồn mở, nhưng không nhắc đến OpenAI.
"Chúng tôi chứng minh rằng các mô hình lý luận lớn hơn có thể được chắt lọc thành các mô hình nhỏ hơn, mang lại hiệu suất tốt hơn", các nhà nghiên cứu của DeepSeek viết.
Trong bài viết đăng hồi tháng 12.2024, DeepSeek cho biết việc đào tạo mô hình V3 chỉ tiêu tốn chưa đến 6 triệu USD chi phí điện toán từ khoảng 2.000 chip Nvidia H800. Andrej Karpathy, thành viên sáng lập của OpenAI, đã gọi đây là "ngân sách nực cười".
Điều đáng nói là V3 được DeepSeek đào tạo với lượng tài nguyên ít hơn nhưng vẫn ngang bằng hoặc thậm chí vượt trội về hiệu suất ở một số lĩnh vực so với các mô hình AI từ các công ty Mỹ như Meta Platforms và OpenAI.
Nvidia H800 không phải là loại chip hàng đầu. Ban đầu H800 được Nvidia phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.
Một số chuyên gia đã đặt nghi vấn về tuyên bố của DeepSeek.
Chuyên gia Stacy Rasgon của hãng Bernstein và các nhà phân tích khác cho rằng chi phí đào tạo V3 của DeepSeek có thể cao hơn, vì con số 6 triệu USD được công ty này công bố chỉ là chi phí cho sức mạnh tính toán. Trong khi có ít thông tin về chi phí phát triển mô hình R1 nổi tiếng hơn.
Dù vậy, con số này vẫn khác xa so với 250 tỉ USD mà các nhà phân tích ước tính các công ty điện toán đám mây lớn Mỹ sẽ chi tiêu trong năm 2025 cho cơ sở hạ tầng AI.
Đột phá của DeepSeek đã làm dấy lên hoài nghi về lợi ích thực sự của hàng tỉ USD mà các tập đoàn công nghệ Mỹ cam kết đầu tư cho phát triển AI. Việc chi tiêu này đã bị các nhà đầu tư đặt câu hỏi vì không mang lại lợi nhuận nhanh chóng như kỳ vọng.
Sơn Vân