Mô hình AI bí ẩn gây bão mạng là của Xiaomi, không phải DeepSeek V4

17 giờ trướcBài gốc

Trước đó, nó từng gây xôn xao cộng đồng AI (trí tuệ nhân tạo) và làm dấy lên suy đoán rằng DeepSeek đang âm thầm thử nghiệm sản phẩm thế hệ tiếp theo trước khi ra mắt.

Việc DeepSeek phát hành V3 và R1, hai mô hình AI mở hiệu năng cao với chi phí huấn luyện thấp, đầu năm ngoái đã kích hoạt làn sóng bán tháo cổ phiếu công nghệ toàn cầu, khiến nhà đầu tư đặt câu hỏi liệu các công ty AI Mỹ có cần chi hàng tỉ USD cho năng lực tính toán hay không. Gần đây, sự quan tâm lớn đã dồn vào V4 - mô hình AI mới vẫn chưa được DeepSeek công bố.

Mô hình AI miễn phí có tên Hunter Alpha xuất hiện trên OpenRouter vào ngày 11.3 mà không có bất kỳ thông tin nào về nhà phát triển. Sau đó, Hunter Alpha được OpenRouter mô tả là “mô hình ẩn danh”.

OpenRouter là nền tảng trung gian cho phép nhà phát triển truy cập và sử dụng nhiều mô hình AI khác nhau thông qua một API (giao diện lập trình ứng dụng) duy nhất. Nói đơn giản, thay vì phải kết nối riêng lẻ tới từng nhà cung cấp như OpenAI, Anthropic hay DeepSeek, bạn có thể dùng OpenRouter để “đi qua một cổng chung” và gọi nhiều mô hình khác nhau. Cụ thể, OpenRouter hoạt động như một lớp định tuyến, khi nhận yêu cầu thì sẽ chuyển tới mô hình AI phù hợp (ví dụ GPT, Claude, Gemini), rồi trả kết quả.

MiMo, nhóm phát triển mô hình AI của Xiaomi, do cựu nhà nghiên cứu DeepSeek Luo Fuli điều hành, hôm 19.3 cho biết Hunter Alpha là "phiên bản thử nghiệm nội bộ ban đầu của MiMo-V2-Pro". Đây là mô hình chủ lực được thiết kế để đóng vai trò là "bộ não" của các tác tử AI.

Tác tử AI là hệ thống AI có khả năng tự quan sát, lập kế hoạch và thực hiện hành động nhằm hoàn thành mục tiêu thay mặt người dùng, thay vì chỉ phản hồi yêu cầu đơn lẻ.

Việc Xiaomi thử nghiệm MiMo-V2-Pro diễn ra trong bối cảnh OpenClaw, nền tảng tác tử AI mã nguồn mở, đang được người dùng thuộc nhiều lĩnh vực tại Trung Quốc nhanh chóng đón nhận.

"Tôi gọi đây là một cuộc phục kích thầm lặng - không phải vì chúng tôi đã lên kế hoạch, mà vì sự chuyển đổi từ mô hình trò chuyện sang tác tử AI diễn ra quá nhanh, đến mức ngay cả chúng tôi cũng khó tin nổi. Mọi người hỏi tại sao chúng tôi lại tiến nhanh như vậy. Tôi đã tận mắt chứng kiến điều đó khi xây dựng DeepSeek R1”, bà Luo Fuli viết trong một bài đăng trên mạng xã hội X hôm 19.3.

MiMo sẽ hợp tác với 5 khung phần mềm tác tử AI lớn, gồm cả OpenClaw, để cung cấp một tuần truy cập miễn phí MiMo-V2-Pro cho các nhà phát triển trên toàn cầu.

Cổ phiếu của Xiaomi niêm yết tại Hồng Kông đã tăng tới 5,8% hôm 19.3 sau thông tin trên.

Hunter Alpha là phiên bản thử nghiệm nội bộ ban đầu của MiMo-V2-Pro - Ảnh: Reuters

Mô hình AI Trung Quốc bí ẩn có 1.000 tỉ tham số

Trong các thử nghiệm do Reuters thực hiện tuần trước, Hunter Alpha tự mô tả là “một mô hình AI Trung Quốc chủ yếu được huấn luyện bằng tiếng Trung” và cho biết dữ liệu của mình kéo dài đến tháng 5.2025 - trùng với mốc kiến thức của chatbot DeepSeek.

Song khi được hỏi về nhà phát triển, Hunter Alpha từ chối tiết lộ.

“Tôi chỉ biết tên của mình, quy mô tham số và độ dài cửa sổ ngữ cảnh”, Hunter Alpha trả lời.

Trang hồ sơ của Hunter Alpha mô tả đây là một mô hình có 1.000 tỉ tham số, tức được huấn luyện với khoảng 1.000 tỉ giá trị có thể điều chỉnh, quyết định cách hệ thống xử lý ngôn ngữ và tạo phản hồi. Các mô hình AI có nhiều tham số hơn thường đòi hỏi sức mạnh tính toán lớn hơn đáng kể để vận hành.

Hunter Alpha còn cho biết có cửa sổ ngữ cảnh lên tới 1 triệu token - thước đo lượng văn bản mà mô hình AI có thể xử lý hoặc ghi nhớ trong một lần tương tác. Mỗi token thường tương ứng với đoạn văn bản ngắn, như một phần của từ.

"Sự kết hợp nổi bật là ngữ cảnh 1 triệu token của Hunter Alpha đi kèm với khả năng suy luận và truy cập miễn phí. Phần lớn mô hình tiên tiến sở hữu cửa sổ ngữ cảnh như vậy đều có chi phí rất cao khi triển khai ở quy mô lớn", Nabil Haouam, kỹ sư xây dựng hệ thống tác tử AI, cho hay.

Các thông số này tương đồng với những kỳ vọng trên truyền thông Trung Quốc về mô hình V4 thế hệ tiếp theo của DeepSeek, có thể ra mắt sớm nhất vào tháng 4.

Umur Ozkul, người vận hành các bài kiểm thử AI độc lập, từng đánh giá: “Phân tích của tôi cho thấy Hunter Alpha nhiều khả năng không phải là DeepSeek V4”. Ông dẫn ra sự khác biệt về hành vi liên quan đến token (xử lý ngôn ngữ) và kiến trúc bên trong Hunter Alpha khi so sánh với mô hình AI hiện có của DeepSeek.

Umur Ozkul cho rằng suy đoán liên kết Hunter Alpha với DeepSeek là dễ hiểu, xét về thời điểm xuất hiện và các năng lực được công bố.

Thử nghiệm ẩn danh

Việc ra mắt các mô hình ẩn danh không phải điều hiếm gặp, khi các nền tảng như OpenRouter cho phép lập trình viên gửi truy vấn tới hàng chục mô hình AI thông qua một giao diện duy nhất. Nhờ đó, OpenRouter trở thành môi trường thử nghiệm phổ biến cho các mô hình AI mới.

Một mô hình ẩn danh có tên Pony Alpha từng xuất hiện trên OpenRouter vào tháng 2 trước khi công ty Zhipu AI (Trung Quốc) xác nhận đó là một phần của GLM-5 chỉ 5 ngày sau đó.

Theo một thông báo trên trang hồ sơ của Hunter Alpha, tất cả lời nhắc và phản hồi của mô hình “được nhà cung cấp ghi lại và có thể được sử dụng để cải thiện nó”, nhấn mạnh thực tiễn phổ biến trong ngành là sử dụng các đợt ra mắt bí mật để thu thập phản hồi khách quan.

Theo MiMo, mô hình AI này nhanh chóng được đón nhận sau khi xuất hiện, xử lý hơn 1.000 tỉ token và đứng đầu bảng xếp hạng trên OpenRouter.

Phần lớn hoạt động đó đến từ các công cụ phát triển phần mềm và khung phần mềm tác tử AI như OpenClaw, cho phép hệ thống AI tự động lập kế hoạch nhiệm vụ và tương tác với phần mềm bên ngoài.

Sơn Vân

Nguồn Một Thế Giới : https://1thegioi.vn/mo-hinh-ai-bi-an-gay-bao-mang-la-cua-xiaomi-khong-phai-deepseek-v4-248841.html