Đội ngũ các nhà khoa học trẻ của DeepSeek bao gồm công dân Trung Quốc đến từ một số trường đại học hàng đầu trong nước. Ảnh: Shutterstock.
DeepSeek đã gây ra làn sóng chấn động khắp thị trường công nghệ toàn cầu trước Tết Nguyên đán 2025, nhấn chìm giá trị của gã khổng lồ bán dẫn Nvidia và các công ty lớn khác đang thúc đẩy sự bùng nổ trí tuệ nhân tạo (AI). Công ty khởi nghiệp của Trung Quốc đã đạt được một kỳ tích từng được coi là bất khả thi.
Công ty có trụ sở tại Hàng Châu trong vài tuần qua đã cho ra mắt 2 mô hình AI mới đầy mạnh mẽ, DeepSeek-V3 và DeepSeek-R1, được xây dựng với chi phí và sức mạnh tính toán chỉ bằng một phần nhỏ nếu đem so với nguồn lực mà các công ty công nghệ lớn bỏ ra để xây dựng các mô hình ngôn ngữ lớn (LLM) – công nghệ làm nền tảng cho các dịch vụ AI tổng hợp như ChatGPT.
Trên mạng xã hội, cộng đồng AI bày tỏ sự ngưỡng mộ về cách mà 2 mô hình nguồn mở của DeepSeek vượt qua hoặc sánh ngang với hiệu suất của các sản phẩm đối thủ trong một loạt các bài kiểm tra điểm chuẩn của ngành. Hai mô hình được phát triển bất chấp các hạn chế của Mỹ nhằm ngăn chặn Trung Quốc tiếp cận chất bán dẫn tiên tiến và các công nghệ liên quan.
Trong một bài đăng trên X, Giám đốc điều hành OpenAI Sam Altman cho biết: “R1 của DeepSeek là một mô hình ấn tượng, đặc biệt là về những gì họ có thể cung cấp với mức giá đó”.
Tiếng vang của DeepSeek trong ngành AI dường như đã đạt đến đỉnh điểm trong hôm đầu tuần này, khi có tin tức lan truyền rằng chatbot cùng tên của nó, được tích hợp với mô hình lý luận R1, đã giành vị trí hàng đầu trong số các ứng dụng sử dụng miễn phí trên App Store của Apple ở Mỹ và Trung Quốc.
Điều gì đã giúp công ty khởi nghiệp AI này tạo nên kỳ tích như vậy?
Nhà lãnh đạo có tầm nhìn
Người sáng lập và giám đốc điều hành DeepSeek, Liang Wenfeng phát biểu tại cuộc họp gần đây ở Bắc Kinh do Thủ tướng Trung Quốc Lý Cường chủ trì. Ảnh: CCTV.
Người sáng lập kiêm Giám đốc điều hành DeepSeek, Liang Wenfeng (Lương Văn Phong) hiếm khi nói chuyện với công chúng. Nhưng vào năm 2023 và 2024, ông đã thực hiện hai cuộc phỏng vấn với hãng truyền thông công nghệ Trung Quốc 36Kr, trong đó hé lộ tầm nhìn của Liang đối với đào tạo LLM, tương lai của AI và những mục tiêu cá nhân của ông.
Khi ra mắt DeepSeek vào tháng 5/2023, Liang cho biết ông đang tập trung vào nghiên cứu trí tuệ nhân tạo tổng hợp (AGI). Ông dự định công khai kết quả của nghiên cứu này cho tất cả mọi người, để công nghệ không chỉ nằm trong tay “một nhóm nhỏ người dân và doanh nghiệp”. Ông cũng nói đang tìm kiếm những tân binh có niềm đam mê tương tự khi xây dựng đội ngũ của DeepSeek.
AGI đề cập đến phần mềm có trí thông minh giống như con người và khả năng tự dạy học, thực hiện các nhiệm vụ mà nó không nhất thiết phải được đào tạo.
Sau khi ra mắt DeepSeek-V2 vào tháng 5/2024, Liang bày tỏ sự thất vọng khi các công ty Trung Quốc ngần ngại tiến hành những nghiên cứu đột phá của riêng họ.
Liang nói: “Trung Quốc phải là bên đóng góp cho sự đổi mới toàn cầu chứ không phải lúc nào cũng được hưởng lợi miễn phí”. Ông chỉ ra rằng sự đổi mới được thúc đẩy bởi trí tò mò và mong muốn sáng tạo chứ không chỉ là nhu cầu kinh doanh.
Ông cho biết nhóm DeepSeek đã chọn làm việc trên “những điều khó khăn nhất” trong ngành. Chính sự tận tâm trong nghiên cứu ban đầu đã mang lại “trái ngọt” cho công ty khởi nghiệp này, dựa vào sự ủng hộ rộng rãi đối với các mẫu V3 và R1.
Liang sinh năm 1985 tại thành phố Trạm Giang, phía nam tỉnh Quảng Đông. Cha ông là một giáo viên tiểu học. Năm 2002, Liang tới miền Đông để học lấy bằng đại học và thạc sĩ về kỹ thuật thông tin tại Đại học Chiết Giang, nơi ông tốt nghiệp vào năm 2010. Kỹ thuật thông tin thường bao gồm các yếu tố khoa học máy tính, kỹ thuật điện tử, khoa học dữ liệu, bảo mật thông tin, mạng viễn thông và AI.
Trong thời gian học đại học, Liang bắt đầu quan tâm đến việc áp dụng công nghệ máy học vào giao dịch định lượng. Năm 2015, Liang thành lập công ty High-Flyer Quant, sử dụng thuật toán học sâu để điều hành quỹ đầu tư định lượng lớn nhất ở Trung Quốc đại lục.
Vào cuối năm 2017, gần như tất cả các hoạt động của High-Flyer Quant đều chạy các mô hình do AI điều khiển, điều này khiến công ty phải mở rộng các nhóm phần cứng, phần mềm và thuật toán. Đến năm 2019, tổng tài sản của người quản lý quỹ phòng hộ này đã vượt 10 tỷ nhân dân tệ (1,4 tỷ USD). Vào năm 2021, con số này đã nhanh chóng vượt quá 100 tỷ nhân dân tệ.
Đội ngũ làm việc toàn “thiên tài trẻ tuổi”
Luo Fuli được Xiaomi chiêu mộ với mức lương hàng năm cực khủng. Ảnh: Economic Times.
Nhóm các nhà khoa học trẻ của DeepSeek hầu hết chỉ bao gồm những công dân Trung Quốc trẻ tuổi đến từ một số trường hàng đầu trong nước, như ĐH Thanh Hoa và ĐH Bắc Kinh. Mặc dù DeepSeek chủ yếu tuyển dụng sinh viên mới tốt nghiệp từ các trường này, Liang cho biết công ty cũng tuyển dụng cả các ứng viên tiến sĩ và chuyên gia AI trẻ chỉ có vài năm kinh nghiệm.
Bài viết kỹ thuật về mô hình R1 cho thấy nó có khoảng 200 đồng tác giả là các nhà nghiên cứu, trong đó có 18 người đóng góp cốt lõi.
Một cựu nhân viên của DeepSeek, Luo Fuli, gần đây đã trở thành tâm điểm chú ý của cả nước khi có thông tin cho rằng người sáng lập, Chủ tịch kiêm Giám đốc điều hành Xiaomi Lei Jun đã đề nghị chiêu mộ cô về bằng gói thù lao 10 triệu nhân dân tệ mỗi năm.
Dựa trên các báo cáo gần đây, Luo, cựu sinh viên Đại học Bắc Kinh – được truyền thông Trung Quốc mệnh danh là “thần đồng AI” – vẫn chưa chấp nhận lời đề nghị của Xiaomi.
Nguồn vốn và nguồn lực điện toán
Trụ sở của DeepSeek tại Hàng Châu, Trung Quốc. Ảnh: Getty.
Tổng vốn điều lệ của DeepSeek chỉ là 10 triệu nhân dân tệ, theo thông tin từ nền tảng theo dõi doanh nghiệp Trung Quốc Tianyancha. Tuy nhiên, công ty này được hưởng lợi từ nguồn tài chính dồi dào và cơ sở hạ tầng công nghệ của nhà quản lý quỹ phòng hộ High-Flyer Quant.
Vào tháng /2024, Liang cho biết vấn đề của High-Flyer Quant không phải là tiền mà là những hạn chế của Mỹ đối với việc xuất khẩu chip tiên tiến sang Trung Quốc. Vào tháng 5/2023, Liang tiết lộ mà không nói rõ rằng công ty đã tích lũy được hơn 10.000 đơn vị xử lý đồ họa từ Nvidia.
Trong một bài đăng trên WeChat vào tháng 4/2023, High-Flyer Quant cho biết họ đang chuyển trọng tâm sang thành lập một tổ chức nghiên cứu độc lập chuyên “khám phá bản chất của AGI” và hy vọng tuyển dụng được những thành viên có cùng chí hướng.
Công ty cho biết: “Chúng tôi sẽ đưa ra các khoản đầu tư đáng kể và bền vững, tránh sự tầm thường và tiếp cận những câu hỏi lớn nhất với tầm nhìn dài hạn”. Sau đó nó tách DeepSeek thành một doanh nghiệp độc lập.
Liang cho biết DeepSeek không có kế hoạch huy động vốn bên ngoài trong thời gian ngắn. Chiến lược đó hoàn toàn trái ngược với những gì các doanh nghiệp AI non trẻ khác của Trung Quốc đang làm. Ví dụ, 6 công ty khởi nghiệp LLM lớn của Trung Quốc – Zhipu AI, Moonshot AI, MiniMax, Baichuan AI, StepFun và 01.AI – đã huy động được ít nhất 20 tỷ nhân dân tệ vào năm 2024 thông qua gần một chục vòng tài trợ, theo báo chí Trung Quốc.
Tâm lý khởi nghiệp của ban quản lý
Liang cho biết vào tháng 7/2024 rằng DeepSeek không có giới hạn trong việc triển khai tài nguyên máy tính hoặc tuyển dụng nhân tài vì công ty không có các lớp nội bộ hoặc bộ phận phòng ban.
Đối với một công ty trẻ, đó dường như là một cơ sở lý tưởng để nhanh chóng theo đuổi hoặc đáp ứng những phát triển công nghệ mới nhất.
Theo Liang, những gì DeepSeek thực hiện là sự phân công lao động “tự nhiên” giữa các nhân viên của mình. Ông nói: “Mỗi cá nhân đều có con đường sống và ý tưởng riêng của mình và không cần phải thúc ép họ”.
Huyền Chi