Cuộc chiến giữa các mô hình AI và hacker đang ngày càng khốc liệt
Sự bùng nổ của trí tuệ nhân tạo trong hai năm qua đưa các mô hình ngôn ngữ lớn (LLM), hệ thống sinh ảnh và nền tảng tự động hóa vào mọi lĩnh vực đời sống, từ giáo dục, y tế đến quản trị doanh nghiệp. Song song với đó, những lỗ hổng bảo mật chưa từng có trong lịch sử công nghệ đang bị phơi bày, khi AI không chỉ trở thành công cụ sáng tạo mà còn trở thành mục tiêu và vũ khí của tin tặc.
Khi lỗ hổng AI lần đầu tiên bị khai thác
Ngay khi những mô hình AI thế hệ đầu tiên ra mắt, cộng đồng bảo mật đã phát hiện ra dấu hiệu bất ổn. Một trong những sự kiện được coi là “lần đầu tiên lỗ hổng AI bị khai thác thực tế” xảy ra vào năm 2022, thời điểm các hệ thống chatbot dựa trên LLM đạt mức phổ biến đại chúng. Khi đó, các nhà nghiên cứu an ninh mạng đã tìm ra cách khiến mô hình vượt qua mọi hạn chế chỉ bằng cách viết lại yêu cầu dưới dạng nhân vật hư cấu hoặc câu chuyện ẩn dụ. Sự kiện này nhanh chóng lan rộng, trở thành ví dụ cho kiểu tấn công “prompt injection”, nơi kẻ tấn công chèn chỉ thị độc hại vào đầu vào để thao túng hành vi mô hình.
Phương thức này lúc đầu bị xem là trò nghịch tinh quái của dân lập trình. Nhưng chỉ vài tháng sau, các nhóm hacker đã biến nó thành công cụ thực sự. Chúng ép mô hình tạo mã độc, hướng dẫn bẻ khóa sản phẩm, sinh email lừa đảo tinh vi, thậm chí mô phỏng giọng nói của người thật để thực hiện các cuộc gọi giả mạo.
Một cột mốc khác là khi các nhà nghiên cứu chỉ cần “lách” bộ lọc bằng chuỗi ký tự vô nghĩa hoặc điều kiện logic vòng vèo. Điều này cho thấy bản chất học mẫu của AI dễ bị lợi dụng: chỉ cần mô hình không hiểu đúng ngữ cảnh, nó sẽ thực thi yêu cầu bất chấp rủi ro. Lỗ hổng AI lần đầu tiên bị khai thác không phải bằng công nghệ cao siêu, mà bằng sự sáng tạo của con người và đó chính là điều khiến nó trở nên nguy hiểm.
Giới chuyên gia bắt đầu lên tiếng
Ngay sau những khai thác ban đầu, giới học giả và chuyên gia an ninh mạng đã bắt đầu phát đi tín hiệu báo động. Nhiều báo cáo từ MIT, Stanford và các tổ chức bảo mật độc lập chỉ ra rằng AI đang mở ra một mặt trận mới của tội phạm mạng.
Các chuyên gia nhận định rằng khác với lỗ hổng phần mềm truyền thống, vốn gắn với code và có thể vá bằng bản cập nhật, lỗ hổng trong mô hình AI phức tạp hơn nhiều, bởi bản chất AI “học” từ dữ liệu và hành vi người dùng. Khi mô hình càng lớn, bề mặt tấn công càng rộng, khả năng giải thích càng thấp và mức độ khó kiểm soát càng cao.
Nhiều học giả cảnh báo về “ảo giác an toàn” khi các công ty tin rằng họ đã chặn được nội dung độc hại nhưng thực tế tin tặc chỉ cần thay đổi vài từ khóa hoặc ngữ cảnh là có thể đánh lừa hệ thống. Điều này khiến cơ chế phòng thủ AI luôn chạy sau kẻ tấn công.
Cộng đồng chuyên gia còn lưu ý thêm một xu hướng nguy hiểm: mô hình AI có thể trở thành công cụ nhân rộng rủi ro. Một tin tặc chỉ cần xây dựng một prompt khai thác thành công, rồi chia sẻ rộng rãi lên Internet, là hàng nghìn người có thể tái sử dụng nó ngay lập tức, tạo ra vòng xoáy tấn công cấp số nhân.
Một số chuyên gia còn cảnh báo rằng AI có thể hỗ trợ tạo mã độc thế hệ mới – không cần kỹ năng lập trình, không cần hiểu sâu về kỹ thuật. Đây chính là thứ được gọi là “tội phạm mạng dân chủ hóa”: bất kỳ ai cũng có thể trở thành hacker nhờ AI.
Các hãng AI chạy đua vá lỗ hổng
Trước sức ép gia tăng, các hãng AI lớn như OpenAI, Google, Meta, Anthropic, Baidu, Alibaba… đã đồng loạt đầu tư vào các phương pháp bảo vệ mô hình. Nhưng thách thức ở đây không chỉ nằm ở kỹ thuật, mà còn nằm ở triết lý thiết kế.
Đầu tiên, các công ty phải xây dựng hệ thống lọc hành vi (alignment) bằng cách huấn luyện mô hình theo hướng an toàn hơn. Điều này gồm đánh giá rủi ro, giám sát đầu ra, chặn lời nhắc độc hại và liên tục cập nhật bộ dữ liệu huấn luyện để giảm khả năng mô hình bị thao túng. Tuy nhiên, phương pháp này mất nhiều thời gian và không đảm bảo 100% an toàn, vì chỉ cần một hướng tấn công mới xuất hiện, mô hình lại phải được cập nhật lại từ đầu.
Tiếp theo, ngành đang triển khai sandbox, tức các môi trường chạy AI được cách ly, nhằm chặn khả năng mô hình tự động thực thi lệnh nguy hiểm. Một số hãng còn khóa API hoặc giới hạn mô hình chỉ được trả lời câu hỏi liên quan chủ đề nhất định khi dùng trong môi trường doanh nghiệp.
Một hướng quan trọng khác là áp dụng đánh giá bảo mật tự động: dùng chính AI để thử tấn công AI. Các công ty đang huấn luyện mô hình đóng vai “tin tặc ảo” để kiểm tra mức độ an toàn của phiên bản mới, tương tự cách ngành bảo mật truyền thống dùng kiểm thử xâm nhập (pentest).
Tuy nhiên, điểm khó nhất nằm ở việc mô hình AI thường xuyên được cập nhật và mở rộng. Một thay đổi nhỏ trong dữ liệu huấn luyện có thể vô tình tạo ra lỗ hổng mới. Vì thế, quá trình vá lỗi trong AI giống như chạy bộ trên cát: càng cố chạy nhanh, mặt đất dưới chân càng biến động.
Cuộc chiến tương lai giữa hacker và các hãng AI
Các chuyên gia nhận định rằng cuộc chiến giữa hacker và ngành AI sẽ kéo dài trong nhiều thập kỷ, bởi AI không phải một hệ thống ổn định như phần mềm truyền thống. Nó liên tục biến đổi theo dữ liệu và tương tác người dùng.
Trong tương lai, kẻ xấu sẽ tập trung vào ba hướng tấn công chính. Thứ nhất, tấn công mô hình bằng dữ liệu độc hại, tức cố tình đưa vào hệ thống các thông tin sai lệch để AI “học” sai và trả lời sai. Đây là dạng tấn công quy mô lớn, có thể gây hậu quả nghiêm trọng cho doanh nghiệp và cơ quan chính phủ.
Thứ hai, tấn công chuỗi cung ứng AI. Khi hàng trăm công ty xây dựng mô hình dựa trên nền tảng của một vài “ông lớn”, chỉ cần một lỗ hổng trong mô hình gốc là hàng trăm hệ thống dẫn xuất khác đều bị ảnh hưởng. Điều này khiến AI trở thành mục tiêu hấp dẫn của hacker quốc gia.
Thứ ba, mô phỏng con người, từ giọng nói, gương mặt, thói quen, phong cách viết... với độ chính xác đủ để đánh lừa cả hệ thống xác thực lẫn người dùng. Việc này có thể dẫn đến các cuộc lừa đảo tinh vi, thao túng bầu cử hoặc gây bất ổn xã hội.
Trong khi đó, ngành AI sẽ phải phát triển những cơ chế phòng vệ tự động hơn, minh bạch hơn và có khả năng giám sát liên tục. Một số chuyên gia dự báo rằng AI phòng thủ sẽ ngày càng thông minh: có thể tự phát hiện hành vi bất thường, tự điều chỉnh ngưỡng an toàn và tự cảnh báo trước khi bị khai thác.
Dù vậy, chưa ai dám khẳng định cuộc chiến này sẽ có hồi kết. Càng nhiều ngành nghề phụ thuộc vào AI, sức hút đối với tội phạm mạng càng lớn. Và khi mô hình AI càng mạnh, khả năng bị tấn công càng cao.
Sự đối đầu giữa hacker và AI sẽ không suy giảm mà ngày càng leo thang, trở thành cuộc chạy đua cân não kéo dài, nơi chiến thắng chỉ thuộc về những hệ thống đủ linh hoạt, đủ minh bạch và đủ nhanh để vượt qua từng đợt tấn công mới.
Người dùng cần làm gì để tránh bị ảnh hưởng từ cuộc chiến giữa hacker và các mô hình AI
Trong bối cảnh cuộc đối đầu giữa hacker và các hãng AI ngày càng căng thẳng, người dùng trở thành tuyến phòng thủ cuối cùng nhưng cũng dễ tổn thương nhất. Phần lớn lỗ hổng khai thác từ AI không chỉ do mô hình bị đánh lừa, mà còn xuất phát từ sự bất cẩn của chính người sử dụng, những người không ý thức được mình đang tương tác với một nền tảng có thể bị thao túng theo những cách họ không lường trước. Vì vậy, việc nâng cao năng lực tự bảo vệ là điều kiện tiên quyết để mỗi cá nhân hạn chế tác động tiêu cực từ các cuộc tấn công.
Điều quan trọng đầu tiên là người dùng cần hiểu rằng AI không phải nguồn thông tin hoàn hảo. Nhiều mô hình có thể bị đánh lừa để sinh ra nội dung sai lệch, độc hại hoặc dẫn dắt theo hướng bất lợi. Việc sử dụng AI cho các nhu cầu nhạy cảm, như tư vấn tài chính, y tế, pháp lý, cần đi kèm với khả năng kiểm chứng bằng nguồn tin thứ hai. Nếu một câu trả lời có dấu hiệu bất thường, chứa các đường dẫn lạ hoặc yêu cầu người dùng cung cấp thông tin cá nhân, đó có thể là dấu hiệu cho thấy mô hình đang bị khai thác hoặc bị sử dụng làm công cụ cho các chiến dịch lừa đảo.
Người dùng cũng cần cảnh giác trước các nội dung và tệp tin do AI tạo ra. Với khả năng sinh email, thư mời, hợp đồng hoặc hóa đơn cực kỳ giống thật, tin tặc có thể dễ dàng gửi các tài liệu giả mạo được “chế tác” bởi mô hình. Việc kiểm tra tên miền, xác thực người gửi và hạn chế tải file từ nguồn không đáng tin trở nên quan trọng hơn bao giờ hết. Trong tương lai gần, khi deepfake giọng nói và video phát triển mạnh, việc xác nhận thông tin qua nhiều kênh sẽ là yêu cầu bắt buộc, đặc biệt trong giao dịch tài chính hoặc các cuộc gọi liên quan đến chuyển tiền.
Ngoài ra, người dùng nên hạn chế chia sẻ dữ liệu nhạy cảm cho mô hình AI, nhất là các nền tảng miễn phí hoặc chưa rõ nguồn gốc. Dữ liệu nhập vào có thể được sử dụng để huấn luyện mô hình, và nếu hệ thống bị tấn công hoặc rò rỉ, thông tin này có thể bị khai thác hoặc tái sử dụng vào mục đích xấu. Việc sử dụng tài khoản bảo mật hai lớp (2FA), thay đổi mật khẩu định kỳ và bật cảnh báo đăng nhập bất thường cũng là biện pháp cơ bản nhưng hiệu quả trong việc giảm thiểu nguy cơ mất mát dữ liệu.
Quan trọng hơn cả, người dùng cần nâng cao “kháng thể số”, sự tỉnh táo và khả năng đánh giá rủi ro trong môi trường công nghệ ngày càng phức tạp. AI càng mạnh thì khả năng bị lạm dụng càng lớn, và mỗi cá nhân cần xác định rằng mình không phải người đứng ngoài cuộc chiến, mà là tác nhân trực tiếp trong hệ sinh thái này. Chỉ khi người dùng chủ động bảo vệ mình, hiểu rõ hạn chế của công nghệ và trang bị kỹ năng nhận diện nguy cơ, thì những thiệt hại từ cuộc chiến giữa hacker và các mô hình AI mới có thể giảm xuống mức thấp nhất.
Bùi Tú