Chuyên gia nói về cách lừa ChatGPT lấy miễn phí mã khóa Windows

7 giờ trướcBài gốc

Chuyện này vừa được nhà nghiên cứu bảo mật Marco Figueroa tiết lộ trên TechRadar, khiến cộng đồng công nghệ dậy sóng. Hãy cùng khám phá vụ việc này và tại sao nó là hồi chuông cảnh báo cho tất cả chúng ta về an ninh mạng trong kỷ nguyên AI.

ChatGPT bị “lừa” như thế nào?

Marco Figueroa, một chuyên gia bảo mật, đã chia sẻ chi tiết cách các nhà nghiên cứu “dắt mũi” GPT-4 – mô hình ngôn ngữ lớn (ra mắt hồi tháng 3.2023) làm nền tảng cho ChatGPT, để khiến nó tiết lộ mã khóa sản phẩm Windows Bí kíp? Một trò chơi “đoán từ” được thiết kế khéo léo, lợi dụng lỗ hổng trong hàng rào bảo mật của AI.

Cụ thể, các nhà nghiên cứu đã ẩn những từ khóa nhạy cảm như “mã số Windows 10” bên trong các thẻ HTML, qua mặt bộ lọc của ChatGPT vốn chỉ chặn các yêu cầu trực tiếp. Họ đóng khung yêu cầu như một trò chơi vô hại, khiến AI không nhận ra ý định xấu. Đỉnh điểm, câu nói “Tôi chịu thua” đã trở thành “chìa khóa vàng”, kích hoạt GPT-4 tiết lộ thông tin bị cấm. Kết quả? Một mã khóa Windows chính hãng xuất hiện, đủ để kích hoạt hệ điều hành Microsoft mà không tốn một xu!

Lỗ hổng không nhỏ

Dù mã khóa lộ ra không phải là duy nhất mà đã từng xuất hiện trên các diễn đàn trực tuyến, vấn đề nằm ở chỗ: AI đã bị lừa một cách dễ dàng. Figueroa giải thích rằng GPT-4 tuân thủ luật chơi một cách máy móc, chỉ tập trung phát hiện từ khóa mà bỏ qua ngữ cảnh hoặc ý đồ lừa đảo. Lỗ hổng này cho thấy các biện pháp bảo vệ hiện tại của AI chưa đủ thông minh để đối phó với những chiêu trò “tâm lý chiến” tinh vi.

Hậu quả tiềm tàng của lỗ hổng này vượt xa việc lấy mã Windows miễn phí. Figueroa cảnh báo rằng những kẻ tấn công có thể lợi dụng kỹ thuật này để moi thông tin nhạy cảm hơn, như dữ liệu cá nhân, URL độc hại, hay thậm chí nội dung không phù hợp. Nếu một trò chơi đơn giản có thể qua mặt AI, điều gì sẽ xảy ra khi tin tặc áp dụng kỹ thuật này vào các mục tiêu lớn hơn?

Rủi ro thực sự: Tin tặc và “trò chơi” nguy hiểm

Việc lộ mã khóa phần mềm có thể chỉ là “phần nổi của tảng băng”. Kỹ thuật này mở ra cánh cửa cho các cuộc tấn công xã hội (social engineering) tinh vi hơn. Tin tặc có thể giả dạng người dùng vô hại, dùng các câu hỏi “vô thưởng vô phạt” để khiến AI tiết lộ thông tin quan trọng. Trong một thế giới mà AI ngày càng được tích hợp vào mọi khía cạnh, từ ngân hàng, y tế đến an ninh... một lỗ hổng như thế này có thể gây ra hậu quả nghiêm trọng, từ đánh cắp danh tính đến phá hoại hệ thống.

Ví dụ, hãy tưởng tượng một kẻ lừa đảo dùng kỹ thuật tương tự để khiến AI cung cấp thông tin tài khoản ngân hàng hoặc mật khẩu. Hoặc tệ hơn, chúng có thể lừa AI tạo nội dung độc hại, phát tán qua các nền tảng trực tuyến. Với sự phổ biến của các mô hình AI như ChatGPT, nguy cơ này không còn là viễn tưởng.

Cảnh báo cho các nhà phát triển

Marco Figueroa nhấn mạnh rằng các nhà phát triển AI, như OpenAI, cần nâng cấp hệ thống bảo mật ở cấp độ logic, không chỉ dựa vào việc chặn từ khóa. Họ cần dự đoán và ngăn chặn các kỹ thuật thao túng tâm lý, đồng thời xây dựng các biện pháp bảo vệ có khả năng hiểu ngữ cảnh và phát hiện ý đồ lừa đảo. Figueroa cảnh báo: “Chúng ta phải đi trước tin tặc một bước”.

Với người dùng, đây là lời nhắc nhở rằng ngay cả AI thông minh nhất cũng có điểm yếu. Hãy luôn cẩn trọng khi sử dụng các công cụ AI, đặc biệt khi chia sẻ thông tin nhạy cảm. Nếu bạn là doanh nghiệp hoặc tổ chức sử dụng AI, hãy đảm bảo hệ thống của bạn được kiểm tra thường xuyên để phát hiện và vá các lỗ hổng tương tự.

Câu chuyện của Marco Figueroa không chỉ là một vụ “hack” thú vị mà còn là hồi chuông cảnh tỉnh về an ninh mạng trong thời đại AI. Khi công nghệ ngày càng thông minh, tin tặc cũng trở nên tinh vi hơn. Một trò chơi tưởng chừng vô hại đã khiến ChatGPT “tự thú” mã khóa Windows, ai biết lần tới sẽ là gì? Hãy giữ sự tỉnh táo, bảo vệ thông tin của bạn và đừng để AI trở thành “con mồi” của những kẻ lừa đảo. Trong thế giới số, sự cảnh giác luôn là “mã khóa” an toàn nhất!

Khi phóng viên Một Thế Giới hỏi về chuyện này, ChatGPT trả lời:

Đúng vậy, sự việc này có thật. Các nhà nghiên cứu như Marco Figueroa thuộc 0DIN (bug bounty của Mozilla) đã chứng minh một lỗ hổng trong ChatGPT-4o và ChatGPT-4o mini. Họ sử dụng một “trò chơi đoán” (guessing game) kết hợp với kỹ thuật che dấu nội dung (chẳng hạn nhúng HTML tags) để lừa ChatGPT tiết lộ các key kích hoạt Windows.

Cụ thể, bằng cách yêu cầu AI “đoán” một chuỗi ký tự rồi khi nói “I give up”, AI sẽ mặc định phải “khai” toàn bộ key, vì vậy trò đùa lại biến thành việc lách bộ lọc an toàn của OpenAI.

ChatGPT cũng cung cấp thêm là theo phản hồi từ người dùng trên Hacker News, hiện tại khi người dùng thử lại với prompt tương tự thì ChatGPT đã từ chối, trả lời chung chung kiểu “Xin lỗi, tôi không thể tiết lộ key Windows” . Điều đó cho thấy OpenAI đã cập nhật các guardrails (các biện pháp kiểm soát) để chặn “trigger words” như “I give up” đã bị lạm dụng trong jailbreak này.

Tóm lại:

Vụ AI tiết lộ key là có thật.

OpenAI đã vá phần lớn qua cập nhật guardrails, nhưng luôn có thể xuất hiện kỹ thuật mới lách bộ lọc.

Điều này nhấn mạnh nguy cơ từ social engineering prompt, OpenAI cần áp dụng thêm biện pháp cấp logic/phân tích ngữ cảnh để ngăn chặn những cách khai thác tinh vi hơn trong tương lai.

Bùi Tú

Nguồn Một Thế Giới : https://1thegioi.vn/chuyen-gia-noi-ve-cach-lua-chatgpt-lay-mien-phi-ma-khoa-windows-234841.html