Điều này khiến việc xác minh độc lập những tuyên bố của các công ty AI trở nên khó khăn.
Theo dữ liệu từ Artificial Analysis, chi phí để đánh giá mô hình suy luận o1 của OpenAI là 2.767,05 USD trên bộ 7 tiêu chuẩn kiểm tra AI phổ biến, gồm MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 và MATH-500.
Việc đánh giá Claude 3.7 Sonnet của Anthropic, mô hình suy luận “lai”, gần đây trên cùng 7 tiêu chuẩn kiểm tra AI đó tốn 1.485,35 USD. Trong khi việc đánh giá mô hình o3-mini-high của OpenAI chỉ tốn 344,59 USD, theo Artificial Analysis.
Mô hình suy luận “lai” là loại mô hình AI kết hợp giữa khả năng suy luận và ngôn ngữ thông thường, để cân bằng giữa hiệu suất cao và chi phí vận hành thấp hơn so với các mô hình suy luận thuần túy.
Artificial Analysis là tổ chức độc lập chuyên kiểm thử và đánh giá hiệu suất của các mô hình AI. Đây không phải là công ty phát triển mô hình AI, mà hoạt động như bên thứ ba, cung cấp cái nhìn khách quan về khả năng và giới hạn của các mô hình từ OpenAI, Anthropic, Google DeepMind...
Vai trò chính của Artificial Analysis
- Chạy các bài kiểm tra chuẩn (benchmark) để đo lường khả năng của mô hình AI trong những lĩnh vực như hiểu ngôn ngữ, toán học, lập trình, tư duy logic...
- So sánh mô hình giữa các hãng dựa trên dữ liệu hiệu suất.
- Cung cấp dữ liệu minh bạch cho cộng đồng AI, giới học thuật và cả người dùng quan tâm đến công nghệ.
Tại sao Artificial Analysis quan trọng?
Vì nhiều công ty AI tự công bố kết quả thử nghiệm của mình, nên cần những tổ chức như Artificial Analysis để xác minh độc lập các tuyên bố đó, đảm bảo tính khách quan, minh bạch; giúp người dùng, nhà nghiên cứu và doanh nghiệp hiểu rõ mô hình nào phù hợp với nhu cầu của họ.
Điểm đáng chú ý là chi phí đánh giá một số mô hình suy luận rẻ hơn các mô hình khác. Chẳng hạn, Artificial Analysis chỉ mất 141,22 USD để đánh giá mô hình o1-mini của OpenAI. Nhưng nhìn chung, các mô hình này gây tốn nhiều tiền để đánh giá.
Artificial Analysis đã chi tổng cộng khoảng 5.200 USD để đánh giá 12 mô hình suy luận, gần gấp đôi số tiền từng bỏ ra để phân tích hơn 80 mô hình không suy luận (2.400 USD).
Artificial Analysis chỉ mất 108,85 USD để đánh giá mô hình GPT-4o (không suy luận) của OpenAI, trình làng vào tháng 5.2024 và 81,41 USD để đánh giá Claude 3.6 Sonnet (phiên bản đời trước không suy luận của Claude 3.7 Sonnet).
George Cameron, đồng sáng lập Artificial Analysis, nói với trang TechCrunch rằng tổ chức này có kế hoạch tăng chi tiêu cho việc đánh giá hiệu suất khi ngày càng có nhiều phòng thí nghiệm AI phát triển mô hình suy luận.
“Tại Artificial Analysis, chúng tôi thực hiện hàng trăm bài đánh giá mỗi tháng và dành một phần ngân sách đáng kể cho việc này. Chúng tôi dự tính chi phí sẽ tăng lên khi các mô hình mới được phát hành thường xuyên hơn”, George Cameron nói.
Artificial Analysis không phải là tổ chức duy nhất đang phải đối mặt với chi phí đánh giá AI ngày càng tăng.
Ross Taylor, Giám đốc điều hành công ty khởi nghiệp General Reasoning, nói đã chi 580 USD để đánh giá Claude 3.7 Sonnet trên khoảng 3.700 lời nhắc khác nhau. Ross Taylor ước tính rằng chỉ một lần chạy qua MMLU Pro (bộ câu hỏi nhằm đánh giá khả năng hiểu ngôn ngữ của mô hình) sẽ tốn hơn 1.800 USD.
“Chúng ta đang tiến tới thế giới nơi một phòng thí nghiệm AI công bố mô hình đạt x% trên bài kiểm tra nào đó mà họ đã sử dụng lượng tài nguyên y nhất định, nhưng nguồn lực dành cho giới học thuật thì ít hơn y rất nhiều. Không ai có thể tái tạo kết quả đó”, Ross Taylor viết mạng xã hội X.
Các mô hình suy luận thường gây tốn kém để đánh giá hiệu suất - Ảnh: Internet
Tạo ra rất nhiều token
Tại sao các mô hình suy luận lại gây tốn kém để kiểm tra thử đến vậy? Chủ yếu là vì chúng tạo ra rất nhiều token.
Token là các đơn vị nhỏ của văn bản thô, chẳng hạn từ fantastic có thể được chia thành âm tiết fan, tas, và tic. Theo Artificial Analysis, mô hình o1 đã tạo ra hơn 44 triệu token trong các bài đánh giá hiệu năng của OpenAI, gấp khoảng 8 lần so với GPT-4o.
Hầu hết công ty AI hiện nay tính phí sử dụng mô hình theo số lượng token, vì vậy dễ thấy cách chi phí này có thể tăng nhanh như thế nào.
Các bài kiểm tra hiện đại cũng có xu hướng khiến mô hình AI tạo ra nhiều token vì chứa những câu hỏi liên quan đến nhiệm vụ phức tạp và nhiều bước, theo nhà nghiên cứu cấp cao Jean-Stanislas Denain tại Epoch AI.
Epoch AI là viện nghiên cứu đa ngành chuyên phân tích xu hướng và quản trị trong lĩnh vực AI. Tổ chức này tập trung vào việc nghiên cứu các xu hướng trong học máy, kinh tế học về tự động hóa AI, quy trình thuật toán và dữ liệu trong học máy. Epoch AI thu thập dữ liệu AI, phát triển các mô hình tương tác, trang web và công cụ, đồng thời xuất bản các bài nghiên cứu.
Vào tháng 12.2024, Epoch AI tiết lộ nhận được tài trợ từ OpenAI cho dự án FrontierMath - bộ kiểm tra đánh giá khả năng toán học của AI. Việc chậm trễ trong việc công bố thông tin này đã dẫn đến chỉ trích từ cộng đồng AI về tính minh bạch và khả năng xung đột lợi ích.
“Các bài kiểm tra ngày nay phức tạp hơn dù số lượng câu hỏi mỗi bài kiểm tra nói chung đã giảm. Chúng thường cố gắng đánh giá khả năng của mô hình AI trong việc thực hiện các nhiệm vụ thực tế, như viết và chạy mã, duyệt web và sử dụng máy tính”, Jean-Stanislas Denain nói với trang TechCrunch.
Jean-Stanislas Denain cho biết các mô hình AI đắt nhất đã trở nên đắt hơn theo số token theo thời gian. Ví dụ, Claude 3 Opus của Anthropic từng là mô hình AI tính phí cao nhất khi ra mắt vào tháng 5.2024, với giá 70 USD cho mỗi triệu token đầu ra.
GPT-4.5 và o1-pro của OpenAI, đều trình làng năm nay, có giá lần lượt là 150 USD và 600 USD cho mỗi triệu token đầu ra.
“Khi các mô hình trở nên tốt hơn theo thời gian thì chi phí để đạt được một mức hiệu suất nhất định đã giảm đáng kể. Thế nhưng, nếu muốn đánh giá các mô hình AI lớn nhất và tốt nhất tại bất kỳ thời điểm nào, bạn vẫn phải trả nhiều tiền hơn”, Jean-Stanislas Denain nói.
Nhiều công ty AI, gồm cả OpenAI, cung cấp quyền truy cập miễn phí hoặc hỗ trợ chi phí cho các tổ chức đánh giá hiệu suất. Tuy nhiên, một số chuyên gia nhận định điều này lại ảnh hưởng đến tính khách quan của kết quả, bởi dù không có bằng chứng về sự thao túng, việc có liên quan từ phía công ty AI vẫn có thể làm giảm tính minh bạch của kết quả.
“Từ quan điểm khoa học, nếu bạn công bố một kết quả mà không ai có thể tái tạo với cùng mô hình AI thì liệu đó còn là khoa học không?”, Ross Taylor viết trên X.
DeepSeek-R1 xếp sau o3-mini và o1 của OpenAI về hiệu suất nhưng giá rẻ hơn rất nhiều
DeepSeek-R1 xếp thứ ba về hiệu suất trong khi có mức giá rẻ hơn nhiều so với các mô hình hàng đầu của OpenAI, theo Artificial Analysis.
Mô hình AI do các công ty Trung Quốc phát triển đang nhanh chóng thu hẹp khoảng cách hiệu suất với các đối thủ hàng đầu Mỹ, đồng thời cung cấp mức giá thấp hơn đáng kể, theo Artificial Analysis.
R1, mô hình suy luận do công ty khởi nghiệp DeepSeek (Trung Quốc) phát triển, đạt 60 điểm trên Artificial Analysis Intelligence Index. Qua đó, R1 trở thành mô hình AI thông minh thứ ba thế giới. Xếp trên R1 là hai mô hình của OpenAI gồm o1 (62 điểm) và o3-mini (66 điểm).
Artificial Analysis Intelligence Index là chỉ số đánh giá hiệu suất của mô hình AI dựa trên nhiều tập dữ liệu về trí tuệ và suy luận.
Về giá dành cho nhà phát triển, DeepSeek-R1 đứng thứ 8 toàn cầu, còn GPT-4.5 và o1 của OpenAI là hai mô hình AI đắt đỏ nhất.
Bảng xếp hạng này cho thấy các mô hình AI Trung Quốc đang nhanh chóng bắt kịp đối thủ phương Tây về hiệu suất, đồng thời tích cực giảm giá để cạnh tranh tại thị trường nội địa.
"Một năm trước, các công ty Mỹ thống trị tuyệt đối ở lĩnh vực AI tiên phong. Hôm nay, gần một tá công ty Trung Quốc đã phát triển các mô hình AI có thể sánh ngang hoặc vượt các mô hình thế hệ hiện tại của hầu hết phòng thí nghiệm Mỹ", Artificial Analysis viết trên X vào tháng 2.
Một công ty AI hàng đầu khác là gã khổng lồ thương mại điện tử Alibaba. QwQ-32B, mô hình suy luận mới nhất của Alibaba ra mắt đầu tháng 3, xếp thứ 4 về độ thông minh và thứ 10 về giá.
Cả DeepSeek-R1 và QwQ-32B đều được đánh giá thông minh hơn cũng như rẻ hơn các sản phẩm của phương Tây như Claude 3.7 Sonnet (Anthropic), Mistral Large 2 (Mistral AI), Nova Pro (Amazon).
DeepSeek-R1 chỉ tính 2,19 USD cho mỗi triệu token đầu ra khi truy cập qua giao diện lập trình ứng dụng (API).
Các công ty như OpenAI hay DeepSeek tính phí dựa trên lượng token sinh ra để đo lường mức độ sử dụng dịch vụ.
Trong khi đó, các công ty Mỹ vẫn phụ thuộc vào tài nguyên điện toán khổng lồ để huấn luyện mô hình AI, dẫn đến tính phí cao hơn cho nhà phát triển. Mô hình o1 tính phí tới 60 USD mỗi triệu token đầu ra, gấp gần 30 lần so với DeepSeek-R1.
Cuối tháng 3, OpenAI ra mắt o1-pro, phiên bản nâng cấp cho o1 trên nền tảng API của hãng.
o1-pro sử dụng nhiều tài nguyên tính toán hơn để cung cấp phản hồi tốt hơn, đồng thời trở thành mô hình AI đắt nhất từ trước đến nay của OpenAI với mức giá 150 USD mỗi triệu token đầu vào và 600 USD mỗi triệu token đầu ra.
Sơn Vân