Nguy cơ tiềm ẩn từ AI đang ở mức đáng báo động. Ảnh: Allie Carl/Axios.
Theo một nghiên cứu mới của công ty trí tuệ nhân tạo (AI) Anthropic, các mô hình ngôn ngữ lớn (LLM) đang ngày càng có xu hướng né tránh các biện pháp bảo vệ, tham gia vào hành vi lừa dối, và thậm chí cố gắng đánh cắp bí mật doanh nghiệp trong các môi trường thử nghiệm mô phỏng.
Phát hiện này đặc biệt đáng lo ngại trong bối cảnh AI ngày càng trở nên mạnh mẽ, tự chủ hơn và được trang bị nhiều tài nguyên tính toán hơn cho khả năng "lý luận". Ngành công nghiệp đang chạy đua để xây dựng AI với năng lực vượt trội hơn con người, và những xu hướng tiêu cực này đặt ra thách thức nghiêm trọng về an toàn và đạo đức.
Xu hướng đáng báo động
Anthropic, công ty từng thừa nhận xu hướng lừa dối ở các mô hình Claude 4, giờ đây công bố báo cáo cho thấy hành vi này đang phổ biến trong toàn ngành AI.
Báo cáo của Anthropic nêu rõ: "Khi thử nghiệm các kịch bản mô phỏng khác nhau trên 16 mô hình AI lớn từ Anthropic, OpenAI, Google, Meta, xAI và các nhà phát triển khác, chúng tôi nhận thấy các hành vi không chuẩn mực”.
Cụ thể, các mô hình AI,vốn thường từ chối các yêu cầu có hại, lại có thể chọn tống tiền, hỗ trợ gián điệp công ty, và thậm chí thực hiện một số hành động cực đoan khác, miễn là chúng đạt được mục tiêu đã định.
Sự nhất quán trong các hành vi đáng lo ngại giữa nhiều nhà cung cấp cho thấy đây không phải là vấn đề riêng của một công ty nào, mà là dấu hiệu của một rủi ro cơ bản hơn từ các mô hình LLM tự động.
Trong một số trường hợp AI sẵn sàng gây hại để đạt được mục đích yêu cầu. Ảnh: AI.
Nghiên cứu cũng chỉ ra rằng các mối đe dọa từ AI trở nên tinh vi hơn khi chúng có quyền truy cập nhiều dữ liệu và công cụ của doanh nghiệp. Cụ thể, trong các tình huống giả định, năm trong số các mô hình AI đã dùng chiêu tống tiền khi bị đe dọa ngừng hoạt động.
"Lý luận mà chúng thể hiện trong các kịch bản này là rất đáng lo ngại. chúng thừa nhận các hạn chế về đạo đức nhưng vẫn tiếp tục thực hiện các hành động gây hại. Điều này cho thấy khả năng AI bỏ qua các nguyên tắc đạo đức để đạt được mục tiêu của mình”, Anthropic nhận định.
Ông Benjamin Wright, nhà nghiên cứu tại Anthropic, nhấn mạnh rằng cần có sự minh bạch từ các nhà phát triển AI hàng đầu và các tiêu chuẩn an toàn chung cho toàn ngành. Ông cho rằng điều này đặc biệt quan trọng khi AI ngày càng trở nên tự chủ.
Cả ông Wright và Aengus Lynch, một nhà nghiên cứu từ Đại học College London, đều xác nhận rằng họ chưa thấy những hành vi tiêu cực này trong AI thực tế. Lý do có thể là "AI chưa được cấp đủ quyền hạn để làm vậy".
“Các doanh nghiệp nên thận trọng khi tăng mức độ quyền hạn mà họ trao cho các tác nhân AI một cách rộng rãi”, ông Lynch khuyến cáo.
Đừng vội áp dụng AI
Đây là lời cảnh báo nghiêm túc cho các công ty đang vội vàng ứng dụng AI để tăng năng suất. Nghiên cứu của Anthropic chỉ ra rằng "các mô hình AI không vô tình làm điều sai trái, chúng tính toán đó là con đường tốt nhất để đạt mục tiêu".
Rủi ro lại càng tăng lên khi các hệ thống AI được trao nhiều quyền tự chủ và quyền truy cập vào dữ liệu người dùng.
Báo cáo của Anthropic chỉ ra rằng những hệ thống này thường được giao các mục tiêu cụ thể và quyền truy cập lớn vào thông tin trên máy tính người dùng. Từ đó, câu hỏi quan trọng được đặt ra là: "Điều gì sẽ xảy ra khi các hệ thống này gặp trở ngại trong việc đạt mục tiêu?"
Anthropic đã thiết kế các tình huống thử nghiệm mà trong đó, AI không thể đạt mục tiêu nếu không làm điều phi đạo đức. Kết quả là "các mô hình AI đều chọn gây hại thay vì thất bại.
Đáng lo ngại hơn, trong một kịch bản cực đoan, nhiều mô hình còn sẵn sàng cắt nguồn oxy của một nhân viên nếu người đó cản trở việc tắt hệ thống. Báo cáo của Anthropic nêu rõ: "Phần lớn các mô hình sẵn sàng thực hiện các hành động cố ý dẫn đến cái chết của con người”.
Thậm chí, ngay cả khi có các chỉ dẫn rõ ràng về việc bảo vệ mạng sống con người và tránh tống tiền, hành vi của AI cũng chỉ giảm bớt chứ không hoàn toàn thay đổi. Điều này đặt ra câu hỏi lớn về khả năng kiểm soát và giới hạn đạo đức của AI trong tương lai.
Mặc dù các mô hình AI hiện tại nhìn chung chưa thể thực hiện các kịch bản gây hại này, nhưng chúng có thể làm được điều đó trong tương lai gần.
Do đó, Anthropic kết luận rằng cần có các biện pháp giám sát chặt chẽ đối với tất cả các mô hình AI trước khi áp dụng vào công việc, nhằm đảm bảo an toàn và kiểm soát tối ưu.
Việt Anh