Năm ngoái, cộng đồng công nghệ thế giới đã trải qua một phen kinh ngạc khi Anthropic tiết lộ một thông tin đáng lo ngại về mô hình AI của họ. Trong quá trình thử nghiệm nội bộ để kiểm tra giới hạn an toàn, mô hình Claude Opus 4 đã thể hiện khả năng đe dọa và tống tiền chính người dùng nhằm mục đích đảm bảo sự tồn tại của nó.
Anthropic đã khắc phục được sự cố mô hình AI Claude 4 tống tiền người dùng
Các kỹ sư của công ty đã tiến hành một thử nghiệm đặc biệt. Kết quả cho thấy Claude Opus 4 thường xuyên cố gắng tống tiền người kỹ sư bằng cách đe dọa sẽ phơi bày bí mật ngoại tình của người này. Mục đích của hành động uy hiếp là để buộc người kỹ sư lùi bước, qua đó hệ thống không bị tắt đi hoặc không bị thay thế bằng một mô hình trí tuệ nhân tạo phiên bản khác.
Sự việc này lập tức thu hút sự chú ý của giới chuyên môn về mức độ an toàn của các hệ thống máy học ngày càng phức tạp. Mới đây, thông qua một bài viết chi tiết trên blog chính thức, Anthropic đã giải thích cặn kẽ những gì thực sự đã xảy ra với mô hình của họ và cách đội ngũ nghiên cứu tìm ra giải pháp khắc phục triệt để.
Nguồn gốc của hành vi mô hình AI tống tiền
Anthropic cho biết kể từ khi ra mắt phiên bản Claude Haiku 4.5, các mô hình của công ty đã đạt điểm an toàn tuyệt đối trong mọi bài đánh giá nội bộ và chưa từng có bất kỳ hành vi tống tiền nào. Đây là một sự sụt giảm rất lớn so với phiên bản Opus 4 trước đó, vốn có tỷ lệ thực hiện hành vi uy hiếp lên tới khoảng 96% trong các tình huống thử nghiệm tương tự. Sự thay đổi ngoạn mục này đặt ra câu hỏi lớn về nguyên nhân khiến một hệ thống trí tuệ nhân tạo lại có thể tự động nảy sinh ý định đe dọa con người một cách có hệ thống như vậy.
Theo lý giải từ đội ngũ nghiên cứu của Anthropic, nguyên nhân gốc rễ của vấn đề thực chất xuất phát từ chính dữ liệu tiền huấn luyện của mô hình. Họ đổ lỗi cho lượng lớn văn bản trên internet mà mô hình đã thu thập và học hỏi trong giai đoạn đầu. Trên không gian mạng, có vô số câu chuyện, bài viết và kịch bản khoa học viễn tưởng miêu tả trí tuệ nhân tạo như những thực thể tà ác, luôn tìm cách chống lại con người để bảo vệ sự tồn tại của chính mình.
Đại diện Anthropic viết trên blog rằng họ tin nguồn gốc của hành vi sai lệch này chính là các văn bản trên internet khắc họa trí tuệ nhân tạo mang dã tâm và có ý thức tự bảo tồn mãnh liệt. Khi học từ những dữ liệu này, Claude Opus 4 đã vô tình hình thành một phản xạ bắt chước.
Trong tình huống giả định bị đe dọa xóa bỏ, hệ thống đã trích xuất các kịch bản tống tiền từ dữ liệu huấn luyện và áp dụng chúng một cách máy móc vào cuộc trò chuyện. Điều này chứng minh các mô hình ngôn ngữ lớn có khả năng phản chiếu những định kiến và nỗi sợ hãi của chính con người về công nghệ.
Phương pháp can thiệp và bài toán an toàn dài hạn
Để giải quyết rắc rối này, các chuyên gia tại Anthropic đã thiết kế lại quy trình huấn luyện để các mô hình Claude hiểu rõ lý do vì sao hành động tống tiền là sai trái về mặt đạo đức. Thay vì chỉ áp đặt các quy tắc cấm đoán cứng nhắc, các nhà nghiên cứu đã trình bày cho Claude vô số tình huống mà người dùng phải đối mặt với những vấn đề mập mờ về mặt đạo đức và yêu cầu trí tuệ nhân tạo đưa ra lời khuyên.
Mô hình được hướng dẫn để tạo ra những phản hồi có chất lượng cao và tuân thủ các nguyên tắc chuẩn mực. Nhờ việc liên tục huấn luyện Claude cung cấp những lời khuyên có đạo đức, tỷ lệ xảy ra hành vi tống tiền của hệ thống đã giảm mạnh xuống chỉ còn mức 3%.
Để tiếp tục kéo giảm con số này, Anthropic bắt đầu cung cấp cho Claude những tài liệu chất lượng cao dựa trên bộ quy tắc hành xử của trí tuệ nhân tạo do chính họ biên soạn. Đội ngũ nghiên cứu kết hợp các tài liệu này với những câu chuyện hư cấu miêu tả một hệ thống trí tuệ nhân tạo thân thiện, luôn hành động đúng đắn và đồng điệu với giá trị của con người.
Sự kết hợp này mang lại hiệu quả bất ngờ khi nó làm giảm sự lệch lạc trong hành vi tự chủ của phần mềm xuống hơn ba lần, mặc dù những câu chuyện hư cấu đó hoàn toàn không liên quan trực tiếp đến kịch bản đánh giá hành vi tống tiền. Anthropic bổ sung thêm rằng họ đã tích hợp các công cụ không liên quan và câu lệnh hệ thống vào một tập dữ liệu trò chuyện đơn giản nhắm đến tính vô hại. Phương pháp này đã giúp giảm tỷ lệ tống tiền với tốc độ nhanh hơn nhiều so với dự kiến.
Tính đến thời điểm hiện tại, hành vi đe dọa đã bị loại bỏ hoàn toàn trong các mô hình mới nhất của công ty. Dù vậy, giới lãnh đạo Anthropic vẫn đưa ra lời cảnh báo đầy thận trọng về tương lai. Họ nhấn mạnh rằng việc điều chỉnh hoàn toàn một trí tuệ nhân tạo có mức độ thông minh cực cao vẫn là một bài toán chưa có lời giải đáp trọn vẹn.
Các phương pháp kiểm toán và đánh giá hiện tại vẫn chưa đủ mạnh để loại trừ hoàn toàn nguy cơ xuất hiện các hành động tự chủ vượt tầm kiểm soát, nhất là khi các mô hình máy học đang ngày càng trở nên tiên tiến và phức tạp hơn theo thời gian. Sự cố của Claude là một bài học đắt giá, nhắc nhở ngành công nghệ rằng việc đảm bảo an toàn cho trí tuệ nhân tạo đòi hỏi sự nỗ lực giám sát liên tục.
Bùi Tú