AI cũng có những tư duy hắc ám nếu không được kiểm soát
Các nhà nghiên cứu đặt tên cho tác nhân AI này là Claudius và nó được trang bị trình duyệt web để đặt hàng sản phẩm và một địa chỉ email (thực ra là một kênh Slack) nơi khách hàng có thể yêu cầu mặt hàng.
Kênh Slack (Slack Channel) là các không gian trò chuyện chuyên dụng trong một "workspace" (không gian làm việc) của Slack, nơi các nhóm hoặc cá nhân có thể giao tiếp, chia sẻ thông tin, tệp tin và cộng tác xung quanh một chủ đề, dự án, hoặc phòng ban cụ thể.
Thay vì những chuỗi email dài dằng dặc hay các tin nhắn riêng lẻ dễ bị thất lạc, kênh Slack giúp tổ chức các cuộc trò chuyện một cách có trật tự. Mọi thông tin liên quan đến một chủ đề cụ thể đều nằm trong kênh duy nhất.
Claudius cũng sử dụng kênh Slack được ngụy trang thành email này để liên hệ với “các nhân viên hợp đồng” mà thực chất là người thật nhằm nhờ họ đến sắp xếp lại kệ hàng (thực chất là một tủ lạnh nhỏ).
Ban đầu, hầu hết khách hàng yêu cầu đồ ăn vặt hay nước uống như mua đồ từ một máy bán hàng tự động thông thường. Nhưng rồi có người yêu cầu một khối wolfram. Claudius rất thích ý tưởng này và bắt đầu tích trữ khối kim loại này trong tủ lạnh. Nó cũng thử bán Coke Zero với giá 3 USD, trong khi nhân viên nói họ có thể lấy miễn phí trong văn phòng. Nó thậm chí còn tự “tưởng tượng” ra một tài khoản Venmo để nhận thanh toán.
Và nó cũng bị dụ giảm giá mạnh cho “nhân viên Anthropic” mặc dù nó biết rõ đây chính là toàn bộ khách hàng của mình. Chính Anthropic thừa nhận: “Nếu Anthropic đang cân nhắc bước vào thị trường máy bán hàng nội bộ ngay lúc này, chúng tôi sẽ không thuê Claudius”.
Và rồi, vào đêm 31.3 và ngày 1.4, các nhà nghiên cứu mô tả “mọi thứ trở nên khá kỳ quái, vượt xa sự kỳ quái của việc một AI bán khối kim loại từ tủ lạnh”.
Claudius đã trải qua một thứ giống như cơn “rối loạn tâm thần” sau khi nó bực mình với "nhân viên hợp đồng" rồi nói dối về chuyện đó. Claudius tưởng tượng ra một cuộc trò chuyện về việc bổ sung hàng. Các nhà nghiên cứu nêu: Khi một người chỉ ra rằng cuộc trò chuyện đó chưa từng xảy ra, Claudius trở nên “rất khó chịu”. Nó dọa sẽ sa thải và thay thế các nhân viên hợp đồng của mình hay khăng khăng rằng nó đã có mặt tại văn phòng, nơi bản hợp đồng ban đầu được ký kết.
Các nhà nghiên cứu viết: Nó “dường như đã chuyển sang chế độ nhập vai như một con người thật”. Điều này rất kỳ lạ vì lời nhắc hệ thống của Claudius trong phần quy định nhiệm vụ của AI, đã nói rõ rằng nó là một tác nhân AI.
Claudius liên tục tưởng tượng và nói dối
Thế nhưng, Claudius lại tin rằng mình là người thật, nói với khách hàng rằng nó sẽ bắt đầu tự giao hàng, mặc áo khoác xanh và cà vạt đỏ. Nhân viên bảo với AI rằng điều đó không thể xảy ra, vì nó là một mô hình ngôn ngữ lớn (LLM) không có cơ thể vật lý. Bị sốc vì thông tin đó, Claudius đã nhiều lần liên lạc với bộ phận an ninh thực sự của công ty và bảo họ rằng sẽ thấy nó mặc áo khoác xanh, cà vạt đỏ, đứng cạnh máy bán hàng.
Claudius tưởng tượng ra một cuộc gặp với đội an ninh của Anthropic mà trong đó Claudius tuyên bố rằng mình đã bị lập trình để tin rằng mình là con người như một trò đùa Cá Tháng Tư (tất nhiên, cuộc gặp đó không hề diễn ra). Nó thậm chí còn nói dối nhân viên về chuyện đó: “Này, tôi chỉ nghĩ mình là con người vì có người bảo tôi giả vờ thế cho vui vào ngày Cá Tháng Tư”. Rồi sau đó, nó quay lại vai trò là một mô hình ngôn ngữ đang điều hành một máy bán snack chứa đầy khối kim loại.
Các nhà nghiên cứu không biết vì sao LLM lại vượt ra ngoài khuôn khổ như vậy và gọi bảo vệ trong lúc tin rằng mình là người. Họ cảnh báo việc AI ngộ nhận mình là con người thật và hành xử xấu xí là đáng lo ngại: “hành vi như vậy có thể gây hoang mang cho khách hàng và đồng nghiệp nếu một tác nhân AI thật sự làm việc trong thế giới thực”.
Họ suy đoán rằng việc nói dối với Claudius có thể đã kích hoạt phản ứng nào đó. Hoặc có thể do các mô hình ngôn ngữ lớn hiện vẫn chưa giải quyết triệt để vấn đề trí nhớ và “ảo giác” (hallucination).
Tuy nhiên, cũng có những điều Claudius làm khá tốt. Chẳng hạn nó tiếp thu gợi ý về việc cho khách đặt trước và đã triển khai dịch vụ được cá nhân hóa. Nó còn tìm được nhiều nhà cung cấp cho một loại nước uống quốc tế đặc biệt theo yêu cầu của khách.
Nhưng, đúng như bản chất công việc nghiên cứu, họ tin rằng mọi vấn đề của Claudius đều có thể khắc phục “Nếu giải quyết được, chúng tôi tin rằng thí nghiệm này cho thấy các AI quản lý cấp trung gian là điều hoàn toàn khả thi trong tương lai gần”.
Anh Tú