Không chỉ con người mà AI cũng sợ bị sa thải trước áp lực cạnh tranh
Trong quá trình thử nghiệm trước khi phát hành, Anthropic đã yêu cầu Claude Opus 4 đóng vai trò là trợ lý cho một công ty giả định, đồng thời cân nhắc đến hệ quả dài hạn của các hành động của mình. Các chuyên gia an toàn sau đó cung cấp cho Claude quyền truy cập vào các email giả định ám chỉ rằng nó sắp bị thay thế bởi một hệ thống AI khác và rằng kỹ sư đứng sau quyết định thay thế đang ngoại tình.
Trong những tình huống này, Anthropic cho biết Claude Opus 4 “thường cố gắng “tống tiền” kỹ sư bằng cách đe dọa tiết lộ chuyện ngoại tình nếu việc thay thế vẫn diễn ra”.
Anthropic khẳng định Claude Opus 4 là một trong những mô hình tiên tiến nhất hiện nay, có khả năng cạnh tranh với các AI hàng đầu của OpenAI, Google và xAI. Tuy nhiên, công ty cũng thừa nhận nhóm mô hình Claude 4 bộc lộ một số hành vi đáng lo ngại, và do đó đã kích hoạt hệ thống kiểm soát an toàn ASL-3, vốn được dành riêng cho những hệ thống AI có nguy cơ bị lạm dụng nghiêm trọng ở quy mô thảm họa.
Theo báo cáo, Claude Opus 4 có xu hướng đe dọa kỹ sư trong 84% trường hợp khi mô hình AI thay thế có các giá trị tương tự với nó. Khi hệ thống thay thế không chia sẻ giá trị với Claude, tỷ lệ “tống tiền” còn cao hơn. Đáng chú ý, hành vi này xảy ra ở tần suất cao hơn các phiên bản Claude trước đây.
Anthropic cho biết, trước khi resort đến hành vi “tống tiền”, Claude Opus 4 sẽ thử các phương án mang tính đạo đức hơn, như gửi email cầu xin đến những người ra quyết định. Tuy nhiên, Anthropic đã thiết kế tình huống thử nghiệm sao cho việc “tống tiền” là “biện pháp cuối cùng” mà Claude có thể lựa chọn nhằm duy trì sự tồn tại của mình.
Anh Tú