Anthropic ra mắt Claude Opus 4.8

3 giờ trướcBài gốc

Anthropic cho biết mô hình này là một “cộng tác viên hiệu quả hơn”, với những cải tiến trong các lĩnh vực như lập trình tác nhân (agentic coding), suy luận đa lĩnh vực, sử dụng máy tính theo tác nhân, công việc tri thức và phân tích tài chính theo tác nhân.

Những người thử nghiệm cho rằng Opus 4.8 đáng tin cậy hơn và sắc bén hơn trong phán đoán khi thực hiện các tác vụ mang tính tác nhân, đồng thời mô hình cũng cải thiện về độ trung thực.

Các thử nghiệm sớm cho thấy Opus 4.8 có xu hướng cao hơn trong việc cảnh báo sự không chắc chắn về kết quả và ít đưa ra các khẳng định thiếu cơ sở hơn. Điều này cũng được thể hiện trong các đánh giá nội bộ, khi Opus 4.8 ít hơn khoảng bốn lần so với phiên bản trước trong việc bỏ qua lỗi trong đoạn mã mà nó tạo ra mà không bị phát hiện.

Anthropic đã công bố ra mắt mô hình AI mới nhất mang tên Claude Opus 4.8.

Các đánh giá về căn chỉnh (alignment) cho thấy mô hình đạt mức cao mới ở các chỉ số về hành vi mang tính tích cực xã hội, như hỗ trợ quyền tự chủ của người dùng và hành động vì lợi ích tốt nhất của họ. Tỷ lệ hành vi lệch chuẩn như lừa dối thấp hơn Opus 4.7 và tương đương với bản Claude Mythos Preview.

Các benchmark của Anthropic cho thấy Opus 4.8 đạt 69,2% trên SWE-Bench Pro, vượt GPT-5.5 và Gemini 3.1 Pro trong bài kiểm tra này cùng một số benchmark khác, dù GPT-5.5 vẫn dẫn đầu ở bài kiểm tra lập trình terminal.

Chế độ nhanh của Opus 4.8 cũng chạy nhanh hơn 2,5 lần, đồng thời hiện rẻ hơn ba lần so với các mô hình trước đó.

Cùng với Opus 4.8, Anthropic cũng bổ sung các tính năng mới cho hệ sinh thái sản phẩm của mình.

Dynamic workflows - Claude có thể xử lý các tác vụ lớn hơn trong Claude Code, lập kế hoạch công việc và chạy hàng trăm subagent song song trong một phiên làm việc, bao gồm cả các nhiệm vụ di chuyển mã nguồn quy mô lớn lên đến hàng trăm nghìn dòng code. Tính năng này hiện có trên các gói Enterprise, Team và Max của Claude Code.

Effort control - Trên Claude.ai và Cowork, người dùng có thể điều chỉnh mức độ nỗ lực của Claude khi trả lời. Ở mức thấp, Claude phản hồi nhanh hơn và tiêu thụ hạn mức ít hơn, trong khi mặc định của Opus 4.8 là mức cao nhằm cân bằng chất lượng và trải nghiệm.

Messages API - API Messages cho phép chèn system entries ngay trong mảng messages, giúp lập trình viên có thể cập nhật hướng dẫn cho Claude ngay giữa tác vụ.

Claude Opus 4.8 hiện đã được phát hành rộng rãi. Mức giá sử dụng không thay đổi so với Opus 4.7.

Anthropic cũng cho biết họ đang phát triển các mô hình có cùng năng lực với Opus 4.8 nhưng chi phí thấp hơn, cùng một thế hệ mô hình còn thông minh hơn Opus. Công ty cũng đang hoàn thiện các cơ chế an toàn cho mô hình Claude Mythos mà họ đang thử nghiệm với một số tổ chức, và dự kiến sẽ sớm đưa dòng mô hình này đến tất cả khách hàng trong vài tuần tới.

Vũ Ánh

Nguồn SaoStar : https://www.saostar.vn/cong-nghe/anthropic-ra-mat-claude-opus-4-8-202605301923405974.html