Thêm một mô hình AI Trung Quốc lọt Top 10 toàn cầu về đánh giá hiệu suất

một giờ trướcBài gốc

Truyền thông Trung Quốc dẫn thông tin trên trang web của Chatbot Arena – một nền tảng đánh giá của bên thứ ba – sáng ngày 4/2 cho biết, cập nhật mới nhất của Bảng xếp hạng về mô hình ngôn ngữ lớn (LLM) của Chatbot Arena đã chứng kiến Qwen2.5-Max của Alibaba Cloud lần đầu tiên lọt vào bảng xếp hạng top 10 toàn cầu, vượt trội hơn các mô hình như DeepSeek-V3, o1-mini và Claude-3.5-Sonnet.

DeepSeek-R1 và ChatGPT-4o vẫn giữ nguyên vị trí thứ ba trong bảng xếp hạng hiệu suất chung, cũng theo trang web Chatbot Arena.

Ảnh minh họa. (Ảnh: Qwen)

Ngoài ra, trang này cũng cho biết, Qwen2.5-Max còn xếp hạng nhất về toán học và lập trình, đồng thời giành vị trí thứ hai về Hard Prompts. “Qwen-Max của Alibaba mạnh trên mọi lĩnh vực. Đặc biệt là trong các lĩnh vực kỹ thuật (Lập trình, Toán học, Hard Prompts)”, Chatbot Arena cho biết trong một bài đăng trên mạng xã hội X.

Khoảng 1 tuần trước, công cụ AI Qwen2.5-Max của Alibaba đã được đánh giá là còn mạnh hơn cả DeepSeek khi cho kết quả tốt hơn so với DeepSeek-V3 giới thiệu hồi tháng 12/2024. Thậm chí, Qwen2.5-Max còn vượt qua GPT-4o-0806 và Claude-3.5-Sonnet-1022 trong một số trường hợp. Tuy nhiên, kết quả này chưa so sánh với mô hình mới nhất DeepSeek-R1, phiên bản “được đào tạo trên các chip cũ của Nvidia, mã nguồn mở 100%, rẻ hơn 96,4% so với OpenAI o1 trong khi vẫn mang lại hiệu suất tương tự”.

Mặc dù vậy, đến nay, Australia đã cấm mọi dịch vụ từ công ty công nghệ Trung Quốc DeepSeek trên các hệ thống và thiết bị của chính phủ, sau những động thái tương tự của các cơ quan Mỹ, như NASA và Lầu Năm Góc.

Bích Thuận/VOV-Bắc Kinh

Nguồn VOV : https://vov.vn/cong-nghe/tin-cong-nghe/them-mot-mo-hinh-ai-trung-quoc-lot-top-10-toan-cau-ve-danh-gia-hieu-suat-post1153016.vov