AI Trung Quốc có thể gây bất ngờ lớn

2 ngày trướcBài gốc

Trong bài đăng mừng năm mới trên X, Jim Fan - một nhà khoa học nghiên cứu cấp cao tại Nvidia và dẫn đầu nhóm Sáng kiến AI nhận định DeepSeek, một phòng thí nghiệm AI của Trung Quốc sẽ là "ngựa ô" năm 2025 trong các mô hình ngôn ngữ lớn (LLM).

“Mô hình AI mới cho thấy rằng những hạn chế về nguồn lực buộc bạn phải tự đổi mới mình theo những cách ngoạn mục”, Fan viết, ám chỉ đến cách DeepSeek phát triển sản phẩm với chi phí chỉ bằng một phần nhỏ so với số vốn mà các công ty công nghệ khác đầu tư để xây dựng LLM.

Mô hình ưu việt

LLM đề cập đến công nghệ hỗ trợ AI tạo ra các dịch vụ như ChatGPT. Trong AI, số lượng lớn các tham số đóng vai trò then chốt trong việc cho phép LLM thích ứng với các mẫu dữ liệu phức tạp hơn và đưa ra các dự đoán chính xác.

Trong khi đó, mã nguồn mở cung cấp quyền truy cập công khai vào mã nguồn của chương trình phần mềm, cho phép các nhà phát triển bên thứ ba sửa đổi hoặc chia sẻ thiết kế, sửa các liên kết bị hỏng hoặc mở rộng khả năng của chương trình.

Tuy nhiên, DeepSeek V3 - mô hình mới nhất của Startup có trụ sở tại Hàng Châu lại khiến cả giới công nghệ bất ngờ khi có 671 tỷ tham số và được huấn luyện trong khoảng 2 tháng với chi phí 5,58 triệu USD.

Để so sánh, DeepSeek sử dụng ít tài nguyên tính toán hơn đáng kể so với các mô hình được phát triển bởi các công ty công nghệ lớn như Meta (công ty mẹ của Facebook) và OpenAI (nhà phát triển ChatGPT).

DeepSeek V3 sở hữu sức mạnh vượt trội so với nhiều đối thủ trên thị trường. Ảnh: Shutterstock.

Việc DeepSeek phát triển một mô hình ngôn ngữ lớn (LLM) mạnh mẽ với chi phí thấp hơn so với các công ty lớn cho thấy sự tiến bộ vượt bậc của các công ty AI Trung Quốc, bất chấp lệnh trừng phạt của Mỹ đã hạn chế phần lớn khả năng tiếp cận của họ với các loại bán dẫn tiên tiến dùng để huấn luyện mô hình.

Tận dụng kiến trúc mới được thiết kế để đạt hiệu quả chi phí trong quá trình huấn luyện, DeepSeek chỉ cần 2,78 triệu giờ GPU – tổng thời gian sử dụng bộ xử lý đồ họa (GPU) để huấn luyện LLM cho mô hình V3 của mình.

Theo báo cáo kỹ thuật được DeepSeek công bố vào ngày 26/12, khi V3 ra mắt, quá trình này sử dụng GPU H800 của Nvidia, loại GPU được tùy chỉnh riêng cho thị trường Trung Quốc.

Quá trình này thấp hơn đáng kể so với 30,8 triệu giờ GPU mà Meta cần để huấn luyện mô hình Llama 3.1 trên các chip H100 tiên tiến hơn của Nvidia, vốn bị cấm xuất khẩu sang Trung Quốc.

"DeepSeek V3 dường như là một mô hình mạnh mẽ hơn với chỉ 2,8 triệu giờ GPU," nhà khoa học máy tính Andrej Karpathy – thành viên sáng lập của OpenAI – nhận xét trong bài đăng trên X vào ngày 27/12.

Quan sát của Karpathy đã khiến Fan phản hồi trong một bài đăng trên X cùng ngày. "Hạn chế về tài nguyên là một điều tuyệt vời. Bản năng sinh tồn trong một môi trường cạnh tranh khốc liệt về AI chính là động lực chính cho những đột phá", nhà khoa học của Nvidia nhận xét.

Cũng theo Fan, DeepSeek thực tế đã từng sở hữu một trong những mô hình mã nguồn mở tốt nhất vào năm 2024.

"Những mô hình OSS (phần mềm mã nguồn mở) vượt trội đang tạo áp lực lớn lên các công ty phát triển LLM thương mại tiên tiến, buộc họ phải đẩy nhanh tốc độ", Fan nhận xét.

Đội ngũ trẻ trung nhưng cũng đầy thách thức

Theo SCMP, DeepSeek được tách ra vào năm 2023 bởi công ty quản lý quỹ đầu cơ High Flyer Quant. Người đứng sau DeepSeek là nhà sáng lập High Flyer Quant, Liang Wenfeng từng theo học AI tại Đại học Chiết Giang.

Tương tự ChatGPT, DeepSeek V3 có thể xử lý hiệu quả các tác vụ dựa trên văn bản như mã hóa hoặc viết luận theo yêu cầu từ người dùng. Ảnh: SCMP.

Trong một cuộc phỏng vấn với trang tin trực tuyến Trung Quốc 36Kr vào tháng 5/2023, Liang cho biết High Flyer Quant đã mua hơn 10.000 GPU trước khi chính phủ Mỹ áp đặt lệnh hạn chế xuất khẩu chip AI sang Trung Quốc.

Khoản đầu tư này đã tạo nền tảng cho DeepSeek hoạt động như một nhà phát triển LLM. Bên cạnh đó, Liang cũng tiết lộ rằng DeepSeek vẫn đang nhận được sự hỗ trợ tài chính từ High Flyer Quant.

Phần lớn các nhà phát triển tại DeepSeek là sinh viên mới tốt nghiệp hoặc những người mới bắt đầu sự nghiệp trong lĩnh vực AI. Điều này phù hợp với chiến lược tuyển dụng của công ty là ưu tiên năng lực hơn kinh nghiệm.

Tuy nhiên, mô hình V3 của DeepSeek đã gây ra một số tranh cãi khi đôi lúc tự nhận mình là ChatGPT của OpenAI.

Trong một số bài đăng trên X, người dùng đã khiến DeepSeek V3 tự nhận mình là ChatGPT, chatbot của OpenAI. Khi được yêu cầu giải thích thêm, AI của Trung Quốc khẳng định nó là phiên bản của mô hình GPT-4 được phát hành vào năm 2023.

TechCrunch đánh giá đây là sự ảo tưởng khá nghiêm trọng. Nếu người dùng hỏi DeepSeek V3 về nguồn dữ liệu đầu vào, nó sẽ liên kết sang cách sử dụng API của OpenAI. Thậm chí, chatbot này còn kể một số câu chuyện cười giống như cách tương tác của GPT-4.

Mô hình AI của DeepSeek ngộ nhận là ChatGPT. Ảnh: SCMP.

Các mô hình như ChatGPT và DeepSeek V3 có thể được gọi chung là hệ thống thống kê. Chúng sử dụng hàng tỷ ví dụ thực tế để học hỏi, từ đó đưa ra dự đoán về từ tiếp theo dựa trên đầu vào là câu lệnh của người dùng.

“Rõ ràng DeepSeek V3 đang sử dụng phản hồi thô từ ChatGPT tại một thời điểm nhất định. Chúng tôi đã thấy những trường hợp kỹ sư trực tiếp đào tạo mô hình của họ bằng kết quả từ các mô hình khác”, Mike Cook, nhà nghiên cứu tại Đại học King's College London nói với TechCrunch.

Cook lưu ý rằng việc lạm dụng dữ liệu đào tạo từ các mô hình AI đối thủ có thể là con dao 2 lưỡi đối với chất lượng mô hình gốc, vì nó dẫn đến tình trạng ảo giác và tạo ra nhiều câu trả lời gây hiểu lầm.

Nghiên cứu viên này cho biết thêm rằng việc tự ý sử dụng thông tin của bên thứ 3 cũng vi phạm các điều khoản dịch vụ của hệ thống đó.

Anh Tuấn

Nguồn Znews : https://znews.vn/ai-trung-quoc-co-the-gay-bat-ngo-lon-post1522004.html