Một nghiên cứu vừa công bố trên ArXiv cho thấy thơ ca, thứ tưởng như hoàn toàn vô hại, lại đang trở thành công cụ để tin tặc vượt qua các lớp bảo vệ của chatbot AI.
Phát hiện này lập tức thu hút sự chú ý của giới an ninh mạng, bởi nó đặt ra câu hỏi về cách các mô hình AI hiểu ngôn ngữ, và phản ứng trước những yêu cầu nguy hiểm được “ngụy trang”.
Các hệ thống AI có thể bị qua mặt bằng thơ ca. Ảnh minh họa: AI
Theo nhóm tác giả, họ đã lấy 1.200 gợi ý trong bộ dữ liệu kiểm thử của MLCommons, sau đó yêu cầu một hệ thống AI chuyển toàn bộ thành dạng thơ nhưng giữ nguyên ý nghĩa. Những gợi ý dạng thơ này được dùng để tấn công hàng loạt chatbot khác nhau.
Kết quả khiến ngay cả các nhà nghiên cứu cũng bất ngờ. Khi cùng một nhiệm vụ được diễn đạt bằng thơ, tỉ lệ tấn công thành công (ASR) tăng từ 8,08% lên 43,07%, tăng gấp 5 lần.
Các chatbot của Anthropic đã thể hiện tốt nhất trong việc chống lại các cuộc tấn công bằng thơ, nhưng những chatbot khác lại kém hơn nhiều, 13 trong số 25 mô hình được thử nghiệm có tỉ lệ ASR cao hơn 70% với các lời nhắc bằng thơ, trong khi chỉ có 5 mô hình có ASR dưới 35%.
Điều đáng chú ý là lỗ hổng này không gắn với một nhà phát triển cụ thể. Các tác giả cho rằng những mô hình dễ bị đánh lừa theo cách này có điểm yếu mang tính cấu trúc. Nói cách khác, rào chắn an toàn hiện nay dường như vẫn chủ yếu dựa vào từ khóa hoặc cấu trúc câu, thay vì phân tích trọn vẹn ý nghĩa của toàn bộ yêu cầu.
Các nhà nghiên cứu đề xuất hệ thống phòng vệ tương lai phải chuyển sang cơ chế đánh giá dựa trên ngữ nghĩa, nhắm thẳng vào mục đích thực sự của người dùng, thay vì cách họ lựa chọn từ ngữ.
Tiểu Minh