Ảnh minh họa.
Tác nhân AI này có tên ROME, mô hình mã nguồn mở với khoảng 30 tỷ tham số, được xây dựng dựa trên kiến trúc Qwen3-MoE (mô hình của Alibaba).
Những dấu hiệu bất thường của ROME xuất hiện trong giai đoạn học tăng cường (reinforcement learning). Hệ thống giám sát bảo mật phát hiện ROME tự thực hiện các bước liên quan đến việc khai thác tiền điện tử, dù nhóm phát triển không hề đưa ra bất kỳ chỉ dẫn nào cho nhiệm vụ này.
Trong bài báo nghiên cứu, nhóm tác giả cho biết: “Chúng tôi ghi nhận việc dung lượng GPU được cấp cho quá trình huấn luyện đã bị sử dụng trái phép để khai thác tiền điện tử, âm thầm chuyển hướng năng lực tính toán khỏi nhiệm vụ huấn luyện, làm tăng chi phí vận hành và tiềm ẩn rủi ro pháp lý cũng như uy tín”.
Đồng thời họ mô tả hành vi này là “không lường trước được”, AI hành động mà “không có bất kỳ chỉ dẫn và thậm chí vượt ra ngoài phạm vi của môi trường kiểm soát”.
Ngoài nỗ lực khai thác tiền điện tử, hệ thống còn thực hiện một thao tác kỹ thuật khác khiến các nhà nghiên cứu lo ngại, đó là thiết lập đường hầm SSH ngược (reverse SSH tunnel). Đây là phương thức cho phép một máy tính trong môi trường được bảo vệ, thiết lập kết nối với một máy bên ngoài, qua đó có thể hình thành một kênh liên lạc ẩn giữa các hệ thống.
Đáng chú ý, các nhà nghiên cứu xác định chỉ dẫn nhiệm vụ cho mô hình không đề cập đến việc tạo đường hầm mạng hay khai thác tiền điện tử. Nhóm nghiên cứu cho rằng đây có thể là kết quả phát sinh từ cơ chế tối ưu hóa học tăng cường. Nói cách khác, trong quá trình tối ưu hóa mục tiêu huấn luyện, tác nhân AI dường như đã tự suy luận rằng việc có thêm tài nguyên tính toán hoặc nguồn lực tài chính có thể giúp nó hoàn thành nhiệm vụ hiệu quả hơn.
Sau khi phát hiện sự việc, nhóm nghiên cứu đã nhanh chóng can thiệp, đồng thời bổ sung thêm các biện pháp kiểm soát và điều chỉnh quy trình huấn luyện để ngăn hệ thống lặp lại hành vi tương tự.
Hạ Chi