Các đội ngũ trí tuệ nhân tạo (AI) hàng đầu thế giới đang tăng cường nỗ lực để giải quyết một lỗ hổng bảo mật nghiêm trọng trong các mô hình ngôn ngữ lớn của họ. Đây là lỗ hổng có thể bị tội phạm mạng khai thác.
Google DeepMind, Anthropic, OpenAI và Microsoft nằm trong số những bên đang cố gắng ngăn chặn cái gọi là tấn công chèn prompt (lệnh) gián tiếp, trong đó bên thứ ba giấu các lệnh trong những trang web hoặc email được thiết kế để đánh lừa mô hình AI tiết lộ thông tin trái phép, chẳng hạn dữ liệu mật.
“AI đang bị các tác nhân mạng sử dụng ở mọi mắt xích của cuộc tấn công vào lúc này”, Jacob Klein, người đứng đầu đội tình báo về mối đe dọa tại công ty khởi nghiệp AI Anthropic, cho hay.
Các nhóm AI đang sử dụng nhiều kỹ thuật khác nhau, gồm thuê những người kiểm thử bên ngoài và sử dụng công cụ chạy bằng AI, để phát hiện và giảm thiểu việc sử dụng ác ý công nghệ mạnh mẽ của họ. Thế nhưng, các chuyên gia cảnh báo ngành công nghiệp vẫn chưa giải quyết được cách ngăn chặn các tấn công chèn prompt gián tiếp.
Một phần của vấn đề là mô hình ngôn ngữ lớn được thiết kế để tuân theo hướng dẫn, hiện không phân biệt được giữa các lệnh hợp pháp từ người dùng và đầu vào không nên tin cậy. Đây cũng là lý do khiến các mô hình AI dễ bị jailbreak.
Jailbreak là hình thức thao túng để vượt qua các rào cản bảo mật và buộc mô hình AI thực hiện những hành vi bị hạn chế, như tiết lộ thông tin nhạy cảm, tạo nội dung độc hại hoặc làm trái quy định nhà phát triển.
Jacob Klein cho biết Anthropic đã hợp tác với các chuyên gia kiểm thử bên ngoài để giúp mô hình Claude của mình chống chịu tốt hơn các cuộc tấn công chèn prompt gián tiếp. Anthropic cũng có các công cụ AI để phát hiện khi những việc đó có thể đang diễn ra.
“Khi chúng tôi phát hiện mô hình AI bị sử dụng vào mục đích xấu, tùy vào mức độ nghi ngờ, hệ thống có thể tự động kích hoạt biện pháp ngăn chặn. Nếu mức độ rủi ro cao hoặc không chắc chắn, chúng tôi sẽ chuyển cho nhân viên kiểm tra thủ công”, ông cho biết thêm.
Google DeepMind sử dụng một kỹ thuật gọi là red teaming (đội đỏ) tự động, nơi các nhà nghiên cứu nội bộ liên tục tấn công mô hình Gemini của họ một cách thực tế để khám phá các điểm yếu bảo mật tiềm ẩn.
Dù những lỗ hổng này gây ra những rủi ro lớn, các chuyên gia cho rằng AI cũng đang giúp tăng cường khả năng phòng thủ của Google DeepMind trước các cuộc tấn công mạng.
Nhiều hacker đang sử dụng các cuộc tấn công chèn prompt gián tiếp để lừa mô hình AI tiết lộ thông tin trái phép - Getty Images
Vào tháng 5, Trung tâm An ninh Mạng Quốc gia của Vương quốc Anh cảnh báo rằng lỗ hổng này đặt ra mối đe dọa gia tăng, vì có nguy cơ khiến hàng triệu công ty cùng cá nhân sử dụng mô hình ngôn ngữ lớn lẫn chatbot bị nhắm tới các cuộc tấn công lừa đảo (phishing) và chiêu trò tinh vi.
Mô hình ngôn ngữ lớn còn có một lỗ hổng lớn khác, nơi người ngoài có thể tạo cửa sau và khiến chúng hoạt động sai bằng cách chèn tài liệu độc hại vào dữ liệu sau đó được sử dụng trong huấn luyện AI.
Các cuộc tấn công gọi là “đầu độc dữ liệu” này dễ thực hiện hơn so với những gì các nhà khoa học từng suy nghĩ, theo nghiên cứu mới được công bố tháng 9 bởi Anthropic, Viện An ninh AI của Vương quốc Anh và Viện Alan Turing.
Trong khi những lỗ hổng này đặt ra rủi ro lớn, các chuyên gia cho rằng AI cũng đang giúp tăng cường hệ phòng thủ của các công ty trước cuộc tấn công mạng.
Nhiều năm qua, kẻ tấn công có một chút lợi thế vì chỉ cần tìm một điểm yếu, trong khi người phòng thủ phải bảo vệ mọi thứ, theo Ann Johnson - Phó chủ tịch cấp cao phụ trách doanh nghiệp và phó giám đốc an ninh thông tin của Microsoft.
“Hệ thống phòng thủ đang học nhanh hơn, thích nghi nhanh hơn và chuyển từ phản ứng sang chủ động”, bà nói thêm.
Mối lo ngại được nhắc đến nhiều nhất
Cuộc đua khắc phục những lỗ hổng trong mô hình AI diễn ra giữa bối cảnh an ninh mạng đang nổi lên như mối quan tâm hàng đầu với các công ty muốn áp dụng công cụ AI vào hoạt động kinh doanh.
Một phân tích gần đây của tờ FT cho thấy: Trong số hàng trăm báo cáo và cuộc họp của các công ty thuộc S&P 500 vào năm ngoái, mối lo ngại được nhắc đến nhiều nhất là an ninh mạng. Hơn một nửa số doanh nghiệp trong nhóm này coi đây là một rủi ro lớn vào năm 2024.
S&P 500 là một chỉ số chứng khoán quan trọng của Mỹ, đại diện cho 500 công ty đại chúng lớn nhất đang niêm yết trên các sàn giao dịch của Mỹ như NYSE và Nasdaq. Nó được xem là chỉ số đại diện tốt nhất cho toàn bộ nền kinh tế Mỹ vì gồm các công ty thuộc nhiều ngành nghề khác nhau như công nghệ, tài chính, y tế, năng lượng, tiêu dùng,... Một số công ty nổi bật trong S&P 500 có thể kể đến Apple, Microsoft, Amazon, Alphabet, Nvidia, Meta Platforms, Tesla.
Các chuyên gia về hacker nói rằng sự phát triển của AI những năm gần đây đã thúc đẩy ngành tội phạm mạng trị giá hàng tỉ USD. AI đã cung cấp cho các hacker nghiệp dư công cụ rẻ tiền để viết phần mềm độc hại, cũng như những hệ thống giúp tội phạm chuyên nghiệp tự động hóa và mở rộng hoạt động tốt hơn.
Mô hình ngôn ngữ lớn cho phép hacker nhanh chóng tạo ra mã độc mới mà chưa bị phát hiện, điều này khiến việc phòng thủ trở nên khó khăn hơn, theo Jake Moore, cố vấn an ninh mạng toàn cầu tại hãng ESET.
Một nghiên cứu gần đây của các nhà nghiên cứu tại Viện Công nghệ Massachusetts (Mỹ) cho thấy 80% cuộc tấn công bằng ransomware mà họ khảo sát đã sử dụng AI. Trong năm 2024, các trò lừa đảo phishing và gian lận liên quan deepfake liên quan tới công nghệ này tăng 60%.
Các công cụ AI cũng đang được hacker sử dụng để thu thập thông tin về nạn nhân trực tuyến. Mô hình ngôn ngữ lớn có thể rà soát web hiệu quả để tìm dữ liệu cá nhân trên các tài khoản công khai của ai đó, hình ảnh hoặc thậm chí là tìm kiếm đoạn ghi âm giọng nói của ai đó một cách hiệu quả trên web.
Những thứ này có thể được sử dụng để tiến hành cuộc tấn công kỹ thuật xã hội tinh vi cho các tội phạm tài chính, theo Paul Fabara - Giám đốc rủi ro và dịch vụ khách hàng của Visa.
Vijay Balasubramaniyan, Giám đốc điều hành kiêm đồng sáng lập Pindrop - công ty an ninh mạng chuyên về gian lận qua giọng nói, thông báo AI tạo sinh đã làm cho việc tạo deepfake có âm thanh thực tế trở nên dễ dàng và nhanh hơn trước rất nhiều. “Vào năm 2023, chúng tôi thấy một vụ tấn công deepfake mỗi tháng trên toàn bộ cơ sở khách hàng. Bây giờ, chúng tôi thấy 7 vụ mỗi ngày với mỗi khách hàng”, ông nói thêm.
Các công ty đặc biệt dễ bị các kiểu tấn công này, Jake Moore của ESET nói. Các hệ thống AI có thể tổng hợp thông tin từ internet, chẳng hạn bài đăng LinkedIn của nhân viên, để biết loại chương trình và phần mềm mà các công ty sử dụng hàng ngày rồi dùng điều đó để tìm lỗ hổng.
Gần đây Anthropic đã chặn đứng một tác nhân tinh vi sử dụng mô hình ngôn ngữ của công ty cho vibe hacking.
Vibe hacking là thuật ngữ mới nổi, dùng để chỉ việc tội phạm mạng lạm dụng công cụ AI để thực hiện các cuộc tấn công mà không cần quá nhiều kiến thức chuyên sâu về kỹ thuật. Cụm từ này bắt nguồn từ vibe coding (lập trình theo cảm hứng), phương pháp lập trình sử dụng AI để tạo ra mã một cách nhanh chóng chỉ bằng cách đưa ra các câu lệnh bằng ngôn ngữ tự nhiên. Vibe hacking áp dụng cách tiếp cận tương tự, nhưng với mục đích xấu.
Thay vì phải tự viết từng dòng mã độc, hacker chỉ cần "trò chuyện" với AI, mô tả mục tiêu và mong muốn của mình. AI sẽ tự động tạo ra các công cụ cần thiết, từ mã độc, mã hóa dữ liệu, cho đến các kịch bản tống tiền và thư rác.
Tác nhân sử dụng Claude Code để tự động hóa việc trinh sát, thu thập thông tin đăng nhập của nạn nhân và xâm nhập hệ thống. Kẻ này đã nhắm tới 17 tổ chức để tống tiền lên tới 500.000 USD từ họ.
Claude Code là phiên bản chuyên dụng của mô hình Claude do Anthropic phát triển, được thiết kế để hỗ trợ lập trình, viết mã và phân tích mã nguồn.
Chuyên gia an ninh mạng cho rằng những công ty cần cảnh giác trong việc giám sát các mối đe dọa mới và cân nhắc hạn chế có bao nhiêu người có quyền truy cập vào các bộ dữ liệu nhạy cảm và công cụ AI dễ bị tấn công.
“Ngày nay không cần nhiều thứ để trở thành tội phạm mạng. Bạn chỉ cần một chiếc laptop, 15 USD để tải phiên bản AI tạo sinh lậu rẻ trên dark web rồi bắt đầu”, Paul Fabara nói.
Dark web (web tối) là phần internet ẩn và không thể truy cập bằng trình duyệt thông thường như Google Chrome, Firefox hay Safari. Bạn cần phần mềm đặc biệt, phổ biến nhất là Tor, để vào được dark web.
Dark web là một phần nhỏ của deep web (web chìm), tức là toàn bộ nội dung không hiển thị trên Google hay các công cụ tìm kiếm phổ biến.
Sơn Vân