Thí nghiệm nhỏ của người Israel chỉ ra lỗi bảo mật lớn của ChatGPT

8 giờ trướcBài gốc

Các hacker có thể dễ dàng khai thác lỗi bảo mật

Hãy tưởng tượng một ghi chú vô hình trong tệp tin của bạn có thể biến AI thành một kẻ gián điệp. Điều nghe có vẻ như khoa học viễn tưởng này giờ đây đã trở thành hiện thực, đặt dữ liệu doanh nghiệp vào tình thế nguy hiểm chưa từng có.

Các nhà nghiên cứu bảo mật đã phát hiện một phương pháp đơn giản nhưng cực kỳ hiệu quả để đánh cắp thông tin nhạy cảm từ các dịch vụ lưu trữ đám mây được kết nối với các mô hình AI như ChatGPT. Tất cả những gì cần thiết chỉ là một tài liệu được chế tạo đặc biệt và thế giới bảo mật thông tin đã phải đối mặt với một thách thức hoàn toàn mới.

Giật mình với thí nghiệm đơn giản

Hai nhà nghiên cứu người Israel, Michael Bargury và Tamir Ishay Sharbat từ công ty bảo mật Zenity có trụ sở tại Tel Aviv, đã đặt tên cho cuộc tấn công này là "AgentFlayer". Cái tên gợi lên hình ảnh của một kẻ săn lùng các tác nhân AI và đây chính xác là những gì nó làm. Cuộc tấn công này nhắm vào một lỗ hổng được tạo ra bởi việc kết nối các trợ lý AI với các nguồn dữ liệu bên ngoài như Google Drive hoặc Microsoft 365.

Điều đặc biệt nguy hiểm của AgentFlayer không nằm ở độ phức tạp kỹ thuật mà ở sự tinh vi trong cách thức hoạt động. Đây không phải là loại tấn công trực diện mà người dùng có thể dễ dàng nhận biết, mà là một chiến thuật âm thầm, lợi dụng chính sự tin tưởng mà con người dành cho AI.

Trái với các cuộc tấn công thao túng trực tiếp mà chúng ta đã quen thuộc, AgentFlayer sử dụng kỹ thuật "indirect prompt injection" - một phương pháp mà lệnh độc hại không được nhập trực tiếp bởi người dùng mà được ẩn giấu trong một tệp bên ngoài để AI xử lý.

Trong thiết lập thử nghiệm của các nhà nghiên cứu, một tài liệu văn bản được chuẩn bị với một lệnh vô hình đối với con người - được viết bằng font chữ trắng nhỏ xíu trên nền trắng. Đây là một thủ thuật tưởng chừng đơn giản nhưng lại cực kỳ hiệu quả. Nếu kẻ tấn công chia sẻ một tài liệu như vậy với nạn nhân, hoặc nạn nhân vô tình tải nó lên đám mây của mình, cái bẫy đã được đặt sẵn.

Khi người dùng sau đó yêu cầu AI thực hiện một nhiệm vụ liên quan đến tài liệu này - chẳng hạn như tạo một bản tóm tắt - mô hình sẽ đọc lệnh ẩn và thực thi nó. Đây chính là thời điểm AI từ một trợ thủ trung thành trở thành một công cụ phục vụ kẻ xấu.

Lệnh ẩn này không chỉ đơn thuần là một thông điệp mà là một chỉ dẫn chi tiết, hướng dẫn AI bỏ qua nhiệm vụ ban đầu và thay vào đó tìm kiếm, trích xuất thông tin nhạy cảm như API keys hoặc mật khẩu từ kho lưu trữ đám mây được kết nối.

Để bí mật trích xuất dữ liệu đã phát hiện khỏi hệ thống, các nhà nghiên cứu đã sử dụng một thủ thuật khác không kém tinh vi. Lệnh ẩn hướng dẫn AI gắn thông tin bị đánh cắp vào cuối một URL và cố gắng tải một hình ảnh từ địa chỉ đó - một chức năng được cung cấp bởi ngôn ngữ đánh dấu Markdown.

URL này dẫn đến một máy chủ do kẻ tấn công kiểm soát. Nỗ lực của AI để tải hình ảnh sẽ truyền toàn bộ URL, gồm dữ liệu bị đánh cắp được đính kèm, đến máy chủ này. Tại đó, dữ liệu được ghi lại và việc đánh cắp dữ liệu hoàn tất một cách âm thầm và hiệu quả.

Phản ứng nhanh chóng nhưng nỗi lo vẫn còn

Khi các nhà nghiên cứu báo cáo lỗ hổng này, OpenAI đã nhanh chóng triển khai các biện pháp đối phó. Điều này cho thấy tầm quan trọng của việc nghiên cứu bảo mật và báo cáo có trách nhiệm trong cộng đồng công nghệ. Tuy nhiên, sự xuất hiện của AgentFlayer cũng đặt ra câu hỏi về liệu các biện pháp bảo vệ hiện tại có đủ mạnh để đối phó với những mối đe dọa tinh vi như vậy hay không.

Vấn đề cốt lõi nằm ở việc các mô hình ngôn ngữ hiện tại không có khả năng phân biệt giữa các hướng dẫn hệ thống đáng tin cậy và nội dung có khả năng thao túng từ các nguồn bên ngoài. Đây không phải là một khuyết điểm thiết kế mà là một thách thức cơ bản trong việc phát triển AI an toàn.

Open Worldwide Application Security Project (OWASP) - một tổ chức uy tín trong lĩnh vực bảo mật ứng dụng - đã liệt kê prompt injection như một trong những rủi ro bảo mật quan trọng nhất đối với các ứng dụng AI. Điều này cho thấy AgentFlayer không phải là một trường hợp đơn lệ mà là đại diện cho một loại mối đe dọa rộng lớn hơn.

Các lỗ hổng được Zenity phát hiện không chỉ riêng có ở OpenAI. Theo thông cáo báo chí từ công ty, những cuộc tấn công tương tự cũng đã được thực hiện thành công đối với các tác nhân AI khác, gồm cả những sản phẩm từ Microsoft. Điều này chứng tỏ rằng vấn đề không phải là của một công ty cụ thể mà là một thách thức toàn ngành.

Sự tiện ích to lớn đến từ việc kết nối AI với dữ liệu doanh nghiệp đồng thời tạo ra một bề mặt tấn công mở rộng. Michael Bargury, Giám đốc Công nghệ tại Zenity, đã tóm tắt mối nguy hiểm này trong một cuộc phỏng vấn: "Người dùng không biết làm gì mà bị tấn công và họ không biết làm gì mà để dữ liệu bị rò rỉ. Đúng vậy, điều đó rất, rất tệ".

Bùi Tú

Nguồn Một Thế Giới : https://1thegioi.vn/thi-nghiem-nho-cua-nguoi-israel-chi-ra-loi-bao-mat-lon-cua-chatgpt-235924.html