Kimi K2 Thinking vượt GPT-5 và Claude Sonnet 4.5, được ví là 'khoảnh khắc DeepSeek'

Kimi K2 Thinking vượt GPT-5 và Claude Sonnet 4.5, được ví là 'khoảnh khắc DeepSeek'
3 giờ trướcBài gốc
Do Moonshot AI phát triển, mô hình suy luận Kimi K2 Thinking có hiệu năng vượt GPT-5 của OpenAI và Claude Sonnet 4.5 của Anthropic về một số chỉ số. Điều này thổi bùng cuộc tranh luận về khả năng xuất hiện thêm một “khoảnh khắc DeepSeek” và quỹ đạo thống trị AI của Mỹ.
Moonshot AI là công ty khởi nghiệp AI có trụ sở tại Bắc Kinh (thủ đô Trung Quốc) với định giá 3,3 tỉ USD, được hậu thuẫn bởi các hãng công nghệ lớn như Alibaba và Tencent.
Moonshot AI vừa tạo nên một câu chuyện kiểu “David đối đầu Goliath” khác sau khi tung ra mô hình AI mã nguồn mở “thiết lập kỷ lục mới trong các bài kiểm tra về khả năng suy luận, lập trình và hoạt động của tác nhân AI”, theo công ty.
Tác tử AI là AI được thiết kế để tự động quan sát, suy luận và thực hiện hành động nhằm đạt mục tiêu đã định. Khác với một ứng dụng AI tĩnh chỉ trả lời khi có lệnh, tác tử AI có khả năng nhận dữ liệu hoặc tín hiệu từ môi trường, phân tích và lên kế hoạch dựa trên kiến thức hoặc thuật toán có sẵn, chủ động thực hiện các bước tiếp theo, thậm chí phối hợp với con người hoặc các tác tử khác để hoàn thành nhiệm vụ. Ví dụ, một tác tử AI có thể liên tục quét email, tự động soạn và gửi phản hồi phù hợp.
Trên nền tảng Hugging Face, Kimi K2 Thinking là mô hình AI phổ biến nhất dành cho các nhà phát triển tính đến ngày 10.11. Trong khi bài đăng trên mạng xã hội X về Kimi K2 Thinking đã thu hút đến 4,5 triệu lượt xem.
Hugging Face là nền tảng công nghệ AI mã nguồn mở hàng đầu thế giới, nổi tiếng với việc chia sẻ và phát triển các mô hình AI.
Độ phổ biến của Kimi K2 Thinking, một biến thể thuộc dòng Kimi K2, càng tăng mạnh sau khi kênh CNBC (Mỹ) đưa tin chi phí huấn luyện nó chỉ khoảng 4,6 triệu USD. Moonshot AI từ chối bình luận về con số này.
Moonshot AI cho biết Kimi K2 Thinking đã "lập kỷ lục trên các tiêu chuẩn đánh giá khả năng suy luận, lập trình và hoạt động của tác nhân AI" - Ảnh: Shutterstock
Ngay cả khi không xét đến chi phí, Kimi K2 Thinking vẫn khiến cộng đồng AI ấn tượng. Thomas Wolf, đồng sáng lập Hugging Face, viết trên X rằng Kimi K2 Thinking là một ví dụ khác cho thấy mô hình AI mã nguồn mở có thể vượt qua mô hình mã nguồn đóng.
“Đây có phải là một khoảnh khắc DeepSeek khác không? Liệu chúng ta có nên mong đợi một mô hình như vậy cứ sau vài tháng không?”, Thomas Wolf đặt câu hỏi. Ông ám chỉ đến việc DeepSeek từng ra mắt R1, mô hình suy luận mã nguồn mở có hiệu năng cao với chi phí đào tạo thấp, hồi đầu năm, làm lung lay nhận định rằng Mỹ nắm giữ vị thế thống trị tuyệt đối trong lĩnh vực AI.
Theo bài đăng trên GitHub của Moonshot AI, Kimi K2 Thinking đạt 44,9% điểm trong bài kiểm tra Humanity’s Last Exam (bộ đánh giá cho các mô hình ngôn ngữ lớn gồm 2.500 câu hỏi bao phủ nhiều lĩnh vực), vượt qua số điểm 41,7% của GPT-5.
Chưa hết, Kimi K2 Thinking cũng vượt trội các mô hình AI của Mỹ ở hai bài kiểm tra cụ thể:
1. BrowseComp: Đánh giá khả năng duyệt web và kiên trì tìm kiếm thông tin của các tác tử AI.
2. Seal-0: Thách thức các mô hình ngôn ngữ lớn về khả năng tìm kiếm tăng cường với các truy vấn nghiên cứu thực tế.
Cạnh tranh bằng hiệu quả về chi phí
Theo SCMP, chi phí sử dụng giao diện lập trình ứng dụng (API) Kimi K2 Thinking rẻ hơn từ 6 đến 10 lần so với các mô hình AI của OpenAI và Anthropic.
Zhang Ruiwang, kiến trúc sư hệ thống CNTT đang làm việc trong lĩnh vực internet tại Bắc Kinh, cho rằng xu hướng hiện nay của các công ty Trung Quốc là giữ chi phí ở mức thấp.
“Hiệu năng tổng thể của các mô hình Trung Quốc vẫn chưa theo kịp các mô hình hàng đầu Mỹ, nên họ phải cạnh tranh bằng hiệu quả về chi phí để tìm lối đi riêng”, ông nói.
Zhang Yi, nhà phân tích trưởng tại công ty tư vấn iiMedia, cho biết chi phí huấn luyện các mô hình AI Trung Quốc đang giảm mạnh, nhờ đổi mới trong kiến trúc mô hình, kỹ thuật huấn luyện và chất lượng dữ liệu đầu vào. Điều này đánh dấu sự chuyển dịch khỏi tình trạng tập trung quá nhiều tài nguyên điện toán như trong những ngày đầu.
“Nỗ lực tiếp tục giảm chi phí huấn luyện và sử dụng đã trở thành chiến lược then chốt của các nhà phát triển AI Trung Quốc trong cuộc cạnh tranh ngày càng khốc liệt”, Zhang Yi nói thêm.
DeepSeek: Huấn luyện R1 chỉ mất 294.000 USD
Hồi tháng 9, DeepSeek gây sốc khi tiết lộ chỉ mất 294.000 USD để huấn luyện R1, con số thấp hơn nhiều so với mức được các đối thủ Mỹ bỏ ra.
Đây là ước tính đầu tiên mà DeepSeek công bố về chi phí huấn luyện R1, được nêu trong một bài nghiên cứu đăng trên tạp chí khoa học Nature.
Có tên Lương Văn Phong (Giám đốc điều hành DeepSeek) nằm trong nhóm đồng tác giả, bài viết này cho biết R1 có chi phí huấn luyện chỉ 294.000 USD và sử dụng 512 chip Nvidia H800. Đây không phải là loại chip AI hàng đầu của Nvidia. Ban đầu H800 được Nvidia phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.
Trong hai tháng cuối năm 2024 và đầu 2025, DeepSeek phát hành V3 và R1, hai mô hình AI nguồn mở có hiệu suất ngang sản phẩm Mỹ với chi phí huấn luyện thấp hơn rất nhiều. Điều này khiến giới đầu tư toàn cầu bán tháo cổ phiếu công nghệ vì lo ngại DeepSeek có thể đe dọa vị thế thống trị của những hãng AI lớn như OpenAI, Google, Microsoft và ảnh hưởng đến doanh số chip AI của Nvidia. Chỉ trong ngày 17.1, cổ phiếu của Nvidia giảm 17%, tương đương gần 600 tỉ USD vốn hóa bị mất đi, mức thiệt hại lớn nhất trong lịch sử doanh nghiệp Mỹ.
Nvidia là hãng hưởng lợi lớn nhất trong cuộc đua AI vì đang giữ vị thế thống trị về chip huấn luyện các mô hình AI. GPU của Nvidia có khả năng xử lý song song cực mạnh, phù hợp cho việc chạy khối lượng dữ liệu khổng lồ mà các mô hình AI cần để học và suy luận. Nvidia không chỉ bán GPU mà còn cung cấp toàn bộ hệ sinh thái phần mềm (CUDA, cuDNN, TensorRT) giúp các nhà phát triển tối ưu hóa hiệu suất AI trên phần cứng của họ.
Trong một bài viết đầu năm nay, DeepSeek tiết lộ huấn luyện mô hình nền tảng V3 chỉ bằng 2.048 GPU Nvidia H800 khoảng hai tháng, với chi phí 5,6 triệu USD.
DeepSeek tuyên bố rằng quá trình huấn luyện V3 chỉ tiêu tốn 2,8 triệu giờ GPU với chi phí 5,6 triệu USD, bằng một phần nhỏ thời gian và tiền bạc mà các công ty Mỹ bỏ ra cho các mô hình AI của họ.
Trong khi đó, Sam Altman, Giám đốc điều hành OpenAI (“cha đẻ ChatGPT”), từng nói vào năm 2023 rằng việc huấn luyện mô hình nền tảng đã tiêu tốn nhiều hơn 100 triệu USD, dù công ty của ông chưa đưa ra con số chi tiết cho bất kỳ phiên bản nào.
Theo hãng nghiên cứu Epoch AI (Mỹ), lần huấn luyện mô hình AI đắt nhất cho tới nay là Grok 4 của công ty khởi nghiệp xAI với chi phí 490 triệu USD. Epoch AI dự báo các lần huấn luyện mô hình AI trong tương lai có thể vượt 1 tỉ USD vào năm 2027.
Chi phí huấn luyện các mô hình ngôn ngữ lớn, nền tảng cho chatbot AI, ám chỉ khoản tiền để vận hành một cụm chip AI mạnh mẽ trong nhiều tuần hoặc nhiều tháng nhằm xử lý khối lượng khổng lồ văn bản và mã lập trình.
Sơn Vân
Nguồn Một Thế Giới : https://1thegioi.vn/kimi-k2-thinking-vuot-gpt-5-va-claude-sonnet-4-5-duoc-vi-la-khoanh-khac-deepseek-240901.html