DeepSeek V4 có thể gây chấn động dịp Tết, vượt OpenAI và Anthropic về lập trình

11 giờ trướcBài gốc

DeepSeek được cho đang lên kế hoạch tung ra mô hình V4 vào khoảng giữa tháng 2, và nếu các thử nghiệm nội bộ là chính xác thì các công ty AI (trí tuệ nhân tạo) ở Thung lũng Silicon nên lo lắng.

Công ty khởi nghiệp AI đặt trụ sở tại thành phố Hàng Châu có thể nhắm tới mốc phát hành V4 vào khoảng ngày 17.2, đúng dịp Tết Nguyên đán, với một phiên bản được thiết kế chuyên biệt cho tác vụ lập trình, theo nguồn tin của trang The Information. Những người có hiểu biết trực tiếp về dự án cho biết V4 vượt trội cả Claude của Anthropic lẫn GPT của OpenAI trong các bài kiểm tra về lập trình nội bộ, đặc biệt khi xử lý các prompt (câu lệnh) chứa mã cực dài.

DeepSeek V4 có thể gây chấn động thế giới vào dịp Tết Nguyên đán sắp tới, nếu vượt mô hình AI của OpenAI và Anthropic về khả năng lập trình - Ảnh: Internet

Như thường lệ, DeepSeek không phản hồi trước các tin đồn như vậy. Tuy vậy, cộng đồng lập trình viên không chờ đợi thông báo chính thức từ DeepSeek. Các diễn đàn r/DeepSeek và r/LocalLLaMA trên Reddit đã bắt đầu sôi động, người dùng tích trữ sẵn tín dụng API (giao diện lập trình ứng dụng), còn một số nhà quan sát trên mạng xã hội X đưa ra dự đoán rằng V4 có thể củng cố vị thế của DeepSeek như một "kẻ yếu thế đầy nghị lực", không chịu chơi theo những quy tắc tỉ USD của Thung lũng Silicon.

Đây không phải lần đầu DeepSeek gây xôn xao cộng đồng AI. Khi phát hành mô hình suy luận R1 vào tháng 1.2025, DeepSeek đã kích hoạt đợt bán tháo cổ phiếu công nghệ trị giá khoảng 1.000 tỉ USD trên thị trường toàn cầu. Nguyên nhân vì R1 đạt hiệu suất tương đương mô hình o1 của OpenAI trong các bài kiểm tra toán học và suy luận, dù chi phí phát triển thấp hơn đối thủ rất nhiều.

Được phát hành hồi tháng 12.2024, mô hình V3 của DeepSeek đạt tỷ lệ 90,2% trên bài kiểm tra MATH-500, vượt xa mức 78,3% của Claude, và bản cập nhật gần đây là V3.2 Speciale tiếp tục cải thiện hiệu năng.

MATH-500 là tập con chuẩn gồm 500 bài toán được chọn lọc từ bài kiểm tra MATH nổi tiếng, dùng để đánh giá khả năng suy luận toán học chính xác của mô hình AI. V3 đạt tỷ lệ 90,2% nghĩa là giải đúng 451 trên 500 bài toán.

Việc tập trung vào lập trình ở V4 được xem là bước ngoặt chiến lược. Trong khi R1 nhấn mạnh suy luận thuần túy, gồm logic, toán học và chứng minh đúng cú pháp, thì V4 là mô hình lai, kết hợp giữa tác vụ suy luận và không suy luận, hướng tới thị trường doanh nghiệp, nơi khả năng sinh mã chính xác cao có thể chuyển hóa trực tiếp thành doanh thu.

Muốn khẳng định vị thế dẫn đầu về lập trình, V4 sẽ cần vượt qua Claude Opus 4.5, mô hình AI đang giữ kỷ lục SWE-bench Verified với tỷ lệ hoàn thành chính xác 80,9%. Tuy nhiên, nếu nhìn vào lịch sử các lần ra mắt trước đây của DeepSeek, mục tiêu này không phải là điều bất khả thi, ngay cả khi phải đối mặt với các hạn chế mà một phòng thí nghiệm AI Trung Quốc khó tránh khỏi.

SWE-bench Verified là bài kiểm tra chuẩn dùng để đánh giá năng lực của mô hình AI trong vai trò kỹ sư phần mềm, tập trung vào các nhiệm vụ sửa lỗi và cải tiến mã nguồn trong môi trường thực tế.

Vũ khí bí mật

Giả sử các tin đồn là đúng, câu hỏi đặt ra là làm thế nào một phòng thí nghiệm nhỏ có thể đạt được thành tựu như vậy. Vũ khí bí mật của DeepSeek có thể nằm trong bài nghiên cứu công bố ngày 31.12.2025 về Manifold-Constrained Hyper-Connections (mHC). Bài viết này có Lương Văn Phong (nhà sáng lập kiêm giám đốc điều hành DeepSeek) là đồng tác giả, giới thiệu phương pháp huấn luyện mới nhằm giải quyết một vấn đề cốt lõi khi mở rộng quy mô mô hình ngôn ngữ lớn. Cụ thể là: Làm thế nào để mở rộng khả năng của mô hình mà không khiến nó trở nên không ổn định hoặc bị lỗi trong quá trình huấn luyện?

Các kiến trúc AI truyền thống buộc toàn bộ thông tin đi qua một lối hẹp duy nhất. mHC mở rộng lối đi đó thành nhiều luồng song song có thể trao đổi thông tin với nhau mà không làm sụp đổ quá trình huấn luyện mô hình ngôn ngữ lớn.

Wei Sun, nhà phân tích chính về AI tại hãng nghiên cứu thị trường công nghệ Counterpoint Research, gọi mHC là “đột phá đáng chú ý”. Theo bà, kỹ thuật này cho thấy DeepSeek có thể “vượt qua các nút thắt cổ chai về năng lực tính toán và mở khóa những bước nhảy vọt về trí tuệ”, ngay cả khi khả năng tiếp cận chip AI tiên tiến bị hạn chế bởi các biện pháp kiểm soát xuất khẩu của Mỹ.

Lian Jye Su, nhà phân tích trưởng tại hãng nghiên cứu thị trường công nghệ Omdia, nhận định việc DeepSeek sẵn sàng công bố phương pháp của mình cho thấy sự tự tin mới trong ngành AI Trung Quốc. Cách tiếp cận mở khiến DeepSeek trở thành cái tên được cộng đồng lập trình viên ưa chuộng, vì cho rằng hãng này đang đại diện cho hình ảnh mà OpenAI từng có trước khi chuyển sang mô hình đóng và các vòng gọi vốn hàng tỉ USD.

Tuy nhiên, không phải ai cũng bị thuyết phục. Một số lập trình viên trên Reddit phàn nàn các mô hình suy luận của DeepSeek lãng phí tài nguyên tính toán cho những tác vụ đơn giản, trong khi có ý kiến rằng bài kiểm tra của công ty không phản ánh được sự phức tạp ở thế giới thực.

Một bài viết trên nền tảng xuất bản bài viết trực tuyến Medium có tiêu đề “DeepSeek tệ hại và tôi không giả vờ ngược lại nữa” đã lan truyền mạnh vào tháng 4.2025, cáo buộc các mô hình của công ty Trung Quốc tạo ra “đoạn mã rập khuôn vô nghĩa đầy lỗi” và “những thư viện ảo tưởng”.

DeepSeek cũng mang theo không ít vấn đề. Những lo ngại về quyền riêng tư từng khiến một số chính phủ cấm ứng dụng chatbot của DeepSeek. Mối liên hệ với Trung Quốc và các câu hỏi xoay quanh kiểm duyệt trong mô hình của DeepSeek cũng bị soi dưới lăng kính địa chính trị, bên cạnh những tranh luận về kỹ thuật.

Dù vậy, việc DeepSeek phát triển nhanh là điều khó phủ nhận. Các mô hình của DeepSeek đã được sử dụng rộng rãi tại châu Á, và nếu V4 thực sự đáp ứng được các hứa hẹn về lập trình, việc được doanh nghiệp phương Tây chấp nhận có thể sẽ theo sau.

Yếu tố thời điểm cũng đáng chú ý. Theo hãng tin Reuters, DeepSeek ban đầu dự định phát hành mô hình R2 vào tháng 5.2025, nhưng đã kéo dài tiến độ sau khi CEO Lương Văn Phong không hài lòng với hiệu năng. Hiện tại, với kế hoạch phát hành V4 vào tháng 2 và R2 có thể đến trong tháng 8, DeepSeek đang đẩy nhanh tiến độ, vừa thể hiện tính cấp bách, vừa tự tin vào năng lực của mình (?!).

Sơn Vân

Nguồn Một Thế Giới : https://1thegioi.vn/deepseek-v4-co-the-gay-chan-dong-dip-tet-vuot-openai-va-anthropic-ve-lap-trinh-243486.html