Một phòng thí nghiệm trí tuệ nhân tạo nhỏ của Trung Quốc đã khiến thế giới sửng sốt trong tuần qua khi ra mắt mã nguồn mở mô hình ngôn ngữ lớn có khả năng suy luận với chi phí rẻ hơn mức chung của nghành hồi giữa năm 2024.
Hôm 20/1, DeepSeek R1 được giới thiệu, với điểm chuẩn vượt qua bản o1 trả phí từ OpenAI. Theo TechCrunch, R1 vượt trội o1 của OpenAI trên các tiêu chuẩn đánh giá như AIME, MATH-500 và SWE-bench Verified.
Đồng thời, một trong những mô hình của họ chỉ tốn 5,6 triệu USD, so với hàng trăm triệu USD mà các công ty hàng đầu của Mỹ phải chi để huấn luyện các mô hình của mình.
Gã mọt sách với kiểu tóc "thảm họa"
Chỉ sau một đêm, Liang Wenfeng, người sáng lập DeepSeek, công ty khởi nghiệp có trụ sở tại Trạm Giang, Quảng Đông, Trung Quốc bất ngờ nổi tiếng toàn cầu khi mô hình AI của doanh nghiệp này làm rung chuyển Thung lũng Silicon.
R1 đặt ra nghi vấn về giá trị thật sự của các công ty chuyên bán GPU như Nvidia, cái tên dẫn đầu đợt bùng nổ cổ phiếu AI toàn cầu.
Mức giảm 24% trong phiên giao dịch vừa qua đánh dấu ngày tồi tệ nhất của hãng bán dẫn, từ tháng 3/2020. Đồng thời, hiệu suất cổ phiếu công ty cũng ở mức đáng báo động, yếu hơn hẳn mức trung bình 200 ngày qua.
Ở châu Âu, cổ phiếu công nghệ dẫn đầu mức giảm của thị trường, với cổ phiếu của nhà sản xuất thiết bị chip ASML Holding giảm 11%.
Liang Wenfeng trong hội thảo do Thủ tướng Lý Cường chủ trì hôm 20/1. Ảnh: CCTV.
Chỉ số biến động Cboe (VIX) cũng tăng vọt. Nếu mức giảm được giữ vững, Nasdaq 100 và chỉ số phụ công nghệ Stoxx 600 của châu Âu sẽ mất khoảng 1 nghìn tỷ USD vốn hóa thị trường.
"DeepSeek cho thấy hoàn toàn có thể phát triển các mô hình AI mạnh mẽ với chi phí thấp hơn. Điều này có thể phá vỡ cơ sở đầu tư cho toàn bộ chuỗi cung ứng AI, vốn được thúc đẩy bởi chi tiêu lớn từ một số ít công ty công nghệ hàng đầu", Vey-Sern Ling, Giám đốc điều hành tại Union Bancaire Priveé cho biết.
Theo 168, Liang Wenfeng sinh năm 1980, tại Ngô Xuyên, Trạm Giang, Quảng Đông, Trung Quốc. Năm 2002, ông được nhận vào Đại học Chiết Giang, chuyên ngành Kỹ thuật Thông tin Điện tử, thủ khoa ở Ngô Xuyên.
Năm 2021, Liang bắt đầu mua hàng nghìn GPU của Nvidia cho dự án AI phụ của mình trong khi vẫn điều hành quỹ đầu cơ định lượng High-Flyer.
Những người trong ngành coi đó là hành động lập dị của một tỷ phú đang tìm kiếm sở thích mới. "Khi chúng tôi lần đầu gặp nhau, anh ấy là một chàng mọt sách với kiểu tóc tệ hại, nói về việc xây dựng một cụm 10.000 chip để đào tạo mô hình của riêng mình", một đối tác kinh doanh của Liang nói.
Thực tế, việc Liang là một người ngoài ngành AI lại trở thành một lợi thế bất ngờ. Tại High-Flyer, ông đã xây dựng khối tài sản bằng cách sử dụng AI và thuật toán để xác định các mô hình có thể ảnh hưởng đến giá cổ phiếu.
Thậm chí, đội ngũ của ông trở nên thành thạo trong việc sử dụng chip Nvidia để kiếm tiền từ giao dịch chứng khoán. Năm 2023, ông thành lập DeepSeek, tuyên bố ý định phát triển AI đạt trình độ con người.
Vươn mình trở thành siêu AI của Trung Quốc
Mặc dù DeepSeek ban đầu chỉ là một dự án bên lề, Liang Wenfeng lại rất đam mê AI và trực tiếp tham gia vào startup này, tập trung chủ yếu vào nghiên cứu và phát triển.
Mô hình của DeepSeek chỉ tốn 5,6 triệu USD, so với hàng trăm triệu USD mà các công ty hàng đầu của Mỹ phải chi để huấn luyện các mô hình của mình. Ảnh: Bloomberg.
Ông hình dung DeepSeek sẽ trở thành một công ty AI nội địa có thể cạnh tranh với các công ty công nghệ lớn nhất của Trung Quốc cũng như các tập đoàn công nghệ Mỹ.
Điều thú vị là để xây dựng đội ngũ nghiên cứu AI, Liang Wenfeng chỉ tuyển dụng tài năng trẻ xuất sắc từ các trường đại học Trung Quốc, thay vì tìm kiếm nhân lực bên ngoài và trả lương ngang ngửa các công ty công nghệ hàng đầu như ByteDance.
Cùng với công ty sở hữu TikTok, DeepSeek được biết đến với việc trả thù lao cao nhất cho các kỹ sư AI tại Trung Quốc, với văn phòng đặt tại Hàng Châu và Bắc Kinh.
Chiến lược này giúp ông thu hút những nhân tài giỏi nhất Trung Quốc, những người có thể chưa có nhiều kinh nghiệm nhưng sở hữu phẩm chất kỹ thuật cần thiết để phát triển một mô hình AI từ con số không.
“Kỹ sư của DeepSeek biết cách khai thác tiềm năng của các GPU này, ngay cả khi chúng không phải là mẫu hiện đại nhất”, Financial Times trích lời một nhà nghiên cứu AI quen thuộc với DeepSeek cho biết.
Mô hình AI đầu tiên của DeepSeek là DeepSeek Coder, ra mắt vào tháng 11/2023 dưới dạng mã nguồn mở, chuyên xử lý các tác vụ lập trình.
Sau đó, công ty tung ra DeepSeek LLM – một mô hình 67 tỷ tham số, nhằm cạnh tranh với các mô hình ngôn ngữ lớn khác.
Đến tháng 5/2024, DeepSeek-V2 ra đời và được đánh giá cao nhờ hiệu suất mạnh mẽ với chi phí thấp. Sự xuất hiện của DeepSeek-V2 thậm chí còn gây chấn động thị trường AI Trung Quốc, khơi mào cuộc chiến về giá và buộc các ông lớn như ByteDance, Tencent, Baidu và Alibaba phải giảm giá mô hình AI để duy trì tính cạnh tranh.
Điều đặc biệt nhất về DeepSeek là phương pháp mã nguồn mở, giúp các công ty nhỏ tận dụng mô hình AI mà không cần phải trả phí bản quyền khổng lồ như OpenAI hay Google.
Đến các mô hình mới nhất, DeepSeek-V3 và DeepSeek-R1, đã củng cố vị thế của DeepSeek như một phòng nghiên cứu AI hàng đầu tại Trung Quốc.
Thông tin về mô hình DeepSeek-R1 gián tiếp khiến Nvidia mất 589 tỷ USD vốn hóa. Ảnh: WSJ.
DeepSeek-V3, với 671 tỷ tham số, đạt hiệu suất ấn tượng trên nhiều tiêu chuẩn đánh giá trong khi tiêu tốn ít tài nguyên hơn so với các mô hình AI từ Mỹ.
DeepSeek-R1, ra mắt vào hôm 20/1, thậm chí còn làm được điều lớn lao hơn khi tập trung vào các bài toán lập luận và thách thức GPT-4 của OpenAI với khả năng vượt trội.
DeepSeek đã chứng minh hoàn toàn có thể phát triển mô hình AI tương đương với các công ty công nghệ Mỹ mà chỉ với chi phí thấp hơn nhiều, bằng cách sử dụng các chip Nvidia H800, yếu hơn đáng kể so với thế hệ chip Blackwell mới nhất của Nvidia.
Chiến lược này của Liang Wenfeng đã tỏ ra hiệu quả đến khó tin và đồng thời đặt Trung Quốc lên bản đồ AI toàn cầu với hướng tiếp cận tiết kiệm chi phí.
Anh Tuấn