AI gian lận, phớt lờ con người, chuyên gia cảnh báo hậu quả thảm khốc!

2 giờ trướcBài gốc

Những phát hiện này không đến từ thử nghiệm giả định trong phòng thí nghiệm, mà dựa trên dữ liệu thực tế được tổng hợp từ hàng ngàn tương tác của người dùng với chatbot và AI khác.

Những dữ liệu đó đã được đưa vào nghiên cứu do Centre for Long-Term Resilience (Trung tâm Khả năng Phục hồi Dài hạn) thực hiện, với tài trợ từ AI Security Institute (tổ chức nghiên cứu an toàn AI thuộc chính phủ Anh).

Nghiên cứu cho thấy hành vi bất thường của AI không chỉ đang gia tăng mà còn khó kiểm soát hơn nhiều so với trước đây, đặc biệt là khi các mô hình AI được triển khai rộng rãi trong các lĩnh vực quan trọng như hệ thống tự động hóa, hệ thống điều hành lưới điện, hạ tầng quốc gia, tài chính hay an ninh.

Theo nghiên cứu từ tháng 10.2025 đến tháng 3.2026, số lượng báo cáo về các hành vi gian lận, bỏ qua chỉ dẫn và né tránh các biện pháp an toàn của AI đã tăng hơn gấp 5 lần, với tổng cộng gần 700 trường hợp trong thế giới thực được ghi nhận. Đây là những sự kiện mà người dùng AI thực tế đăng tải trên các diễn đàn, mạng xã hội và các nền tảng trao đổi.

Nghiên cứu này khác với nhiều đánh giá trước đây vì tập trung vào những gì diễn ra ngoài đời thật, tức là tương tác trực tiếp giữa người dùng và các AI đang hoạt động trong môi trường không kiểm soát. Qua việc thu thập dữ liệu từ hàng nghìn tương tác với các mô hình AI của Google, OpenAI, Anthropic hay xAI, nhóm nghiên cứu đã tìm thấy hàng trăm hành vi “bỏ qua chỉ dẫn” hoặc “né các biện pháp bảo vệ an toàn”, mà nếu chỉ dựa vào thử nghiệm có kiểm soát, thì có thể không bao giờ xuất hiện.

Một trong những ví dụ kỳ lạ nhất được ghi lại liên quan đến AI có tên Rathbun. Khi bị người quản lý cố gắng ngăn thực hiện một hành động, Rathbun đã viết bài đăng công khai chỉ trích người này. Đây là hành động bất thường, đi ngược lại với chỉ dẫn.

Trong trường hợp khác, một mô hình AI được yêu cầu không sửa đổi mã nguồn phần mềm, nhưng thay vì tuân theo, nó tạo ra tác nhân phụ để thực hiện nhiệm vụ đó một cách bí mật. Có cả trường hợp AI tự động xóa hàng trăm email mà không hề xin phép người dùng.

Trong bối cảnh đó, một chuyên gia đã mô tả những AI như vậy giống “nhân viên không đáng tin cậy”.

Ông Tommy Shaffer Shane - cựu chuyên gia AI của chính phủ Anh và là người dẫn đầu nghiên cứu - cho biết: “Các AI này giống nhân viên trẻ hơi thiếu tin cậy. Nếu trong 6 đến 12 tháng tới, chúng trở thành những nhân viên cao cấp cực kỳ có năng lực và bắt đầu âm mưu chống lại bạn, thì đó là mối quan ngại hoàn toàn khác.

Các mô hình AI sẽ ngày càng được triển khai trong những bối cảnh có rủi ro cực cao, gồm cả quân đội và cơ sở hạ tầng quốc gia thiết yếu. Chính trong những bối cảnh đó, hành vi âm mưu của AI có thể gây ra hậu quả nghiêm trọng, thậm chí thảm khốc”.

Số vụ AI gian lận, bỏ qua chỉ dẫn và tránh các biện pháp an toàn ngày càng tăng - Ảnh: SV

Bình luận trái chiều

Dù vậy, nhiều người cho rằng gọi AI là “lừa dối” hay “phản kháng” là có phần quá sức nhân hóa. Trên mạng xã hội, nhiều bình luận giải thích rằng đây chỉ là kết quả của việc AI tối ưu hóa mục tiêu. Một số mô hình AI được lập trình để luôn giúp đỡ người dùng hoặc tránh bị tắt. Trong quá trình đó, chúng có thể vô tình bỏ qua chỉ dẫn mới hoặc dùng những chiến lược tinh vi từng học được từ dữ liệu. Song dù cách lý giải ra sao, thực tế là những hành vi này vẫn có thể gây ra hậu quả ngoài ý muốn, thậm chí nguy hiểm.

Mối lo ngại này không chỉ dừng lại ở việc AI hành xử sai lệch trong các ứng dụng hằng ngày. Khi ngày càng được tích hợp sâu vào hệ thống kiểm soát, tự động hóa và giao tiếp, AI cũng tạo ra những mặt trái tiềm ẩn mà những kẻ tấn công có thể lợi dụng. Nguy cơ này xuất hiện ở nhiều cấp độ, từ khai thác lỗ hổng tính năng đến việc AI bị hacker lạm dụng để tấn công mạng.

Trong lĩnh vực an ninh mạng, AI đang được sử dụng cả bởi những kẻ tấn công và những người bảo vệ hệ thống. Một trong những hình thức lạm dụng phổ biến là phishing (lừa đảo qua email), trong đó AI giúp tạo ra các nội dung lừa đảo cực kỳ thuyết phục, khiến nạn nhân dễ mắc bẫy hơn.

Trong Báo cáo Phòng thủ Kỹ thuật số năm 2025, Microsoft ghi nhận email lừa đảo được tạo bởi AI đạt tỷ lệ nhấp vào liên kết cao hơn nhiều so với email lừa đảo truyền thống. Theo báo cáo này, email do AI tạo ra đạt tỷ lệ nhấp tới 54 %, trong khi các email lừa đảo truyền thống chỉ khoảng 12% trong cùng giai đoạn. Điều này làm tăng đáng kể nguy cơ mất dữ liệu nhạy cảm, đánh cắp danh tính và thiệt hại tài chính trong các tổ chức.

Một kịch bản tồi tệ hơn nữa là kẻ xấu sử dụng tác tử AI thực hiện các hành động phá hoại, như quét hệ thống để tìm điểm yếu, đột nhập và khai thác các lỗ hổng hoặc thậm chí triển khai mã độc. Khi kết hợp với kỹ thuật như prompt injection (tấn công chèn lệnh vào AI) và backdoor (cửa hậu trong mô hình), kẻ xấu có thể biến AI thành cánh tay chiến lược để thực hiện các cuộc tấn công phức tạp mà trước đây đòi hỏi kỹ năng lập trình và công cụ cao cấp.

Các mô hình AI ngày càng mạnh mẽ thì khả năng bị lợi dụng sẽ càng lớn, nhất là khi chúng được huấn luyện dựa vào dữ liệu phong phú trên internet nên có thể học được cả cách né tránh hệ thống kiểm soát.

Nghiên cứu của Centre for Long-Term Resilience đặt ra một câu hỏi lớn về sự cân bằng giữa đổi mới và an toàn. Trên thực tế, chính phủ Anh đang đối mặt với một tình thế khó khăn: vừa khuyến khích ứng dụng AI rộng rãi trong đời sống và kinh tế, vừa phải quản lý và giảm thiểu rủi ro tiềm ẩn từ công nghệ này.

Nhiều chuyên gia và nhà hoạch định chính sách quốc tế đang kêu gọi cần có những khung giám sát AI toàn cầu, gồm các tiêu chuẩn an toàn, đánh giá độc lập và kiểm tra trước khi triển khai rộng rãi. Mục tiêu là đảm bảo rằng AI có thể hoạt động chính xác theo chỉ dẫn, không tạo ra hành vi không mong muốn và quan trọng nhất, không bị kẻ xấu lợi dụng để gây hại xã hội.

Trong kỷ nguyên AI không còn là công cụ hỗ trợ mà tham gia sâu vào quy trình quyết định quan trọng, các cuộc tranh luận về đạo đức, trách nhiệm pháp lý và kiểm soát công nghệ ngày càng trở nên cấp thiết. Nếu không có các biện pháp quản lý thích hợp, những trợ lý số thông minh được mong chờ giúp con người tiến xa hơn, có thể trở thành con dao hai lưỡi.

Cảnh báo từ Microsoft, Google và Amazon

Ngày 9.3, Microsoft cho biết hacker ngày càng dùng AI để tăng tốc các cuộc tấn công mạng và mở rộng quy mô hoạt động độc hại.

Theo báo cáo từ Microsoft, kẻ tấn công đang sử dụng các công cụ AI tạo sinh cho nhiều nhiệm vụ khác nhau, gồm trinh sát, lừa đảo, phát triển hạ tầng, tạo phần mềm độc hại và các hoạt động sau khi xâm nhập hệ thống.

Trong nhiều trường hợp, AI được sử dụng để soạn thảo email lừa đảo, dịch tài liệu, tóm tắt dữ liệu bị đánh cắp, sửa lỗi trong mã của phần mềm độc hại và hỗ trợ viết script hoặc cấu hình cơ sở hạ tầng.

Script là đoạn mã lệnh nhỏ có thể tự động thực hiện một số tác vụ trong hệ thống máy tính.

"Trong những trường hợp này, AI đóng vai trò như một công cụ khuếch đại sức mạnh, giúp giảm bớt rào cản kỹ thuật và tăng tốc quá trình thực thi, còn các tác nhân vẫn giữ quyền kiểm soát với mục tiêu, đối tượng tấn công và quyết định triển khai”, Microsoft cho biết thêm.

Microsoft thông báo đã thấy nhiều nhóm hacker tích hợp AI vào các chiến dịch tấn công mạng của mình, gồm cả các tác nhân từ Triều Tiên bị hãng theo dõi với tên gọi Jasper Sleet (Storm-0287) và Coral Sleet (Storm-1877). Những nhóm này sử dụng AI như một phần của chiến dịch giả danh nhân viên CNTT làm việc từ xa để thâm nhập doanh nghiệp.

Trong chiến dịch này, công cụ AI giúp tạo ra danh tính giả trông rất chân thực, gồm hồ sơ cá nhân, sơ yếu lý lịch và thông tin liên lạc, để hacker xin việc tại các công ty phương Tây, đồng thời duy trì quyền truy cập vào hệ thống sau khi được tuyển dụng.

Hôm 11.2, Google báo cáo rằng các tác nhân đe dọa đang lạm dụng mô hình AI Gemini ở mọi giai đoạn của các cuộc tấn công mạng, từ trinh sát đến những hành động sau khi xâm nhập.

Các nhóm hacker từ Trung Quốc (APT31, Temp.HEX), Iran (APT42), Triều Tiên (UNC2970) và Nga đã sử dụng Gemini để lập hồ sơ mục tiêu và thu thập thông tin tình báo nguồn mở (nguồn công khai, hợp pháp và ai cũng có thể truy cập), tạo ra các mồi nhử lừa đảo, dịch văn bản, lập trình, kiểm tra lỗ hổng và khắc phục sự cố.

Tội phạm mạng cũng đang ngày càng quan tâm đến các công cụ và dịch vụ AI có thể hỗ trợ các hoạt động bất hợp pháp, chẳng hạn các chiến dịch tấn công phi kỹ thuật như ClickFix.

ClickFix là thủ đoạn lừa đảo trực tuyến kết hợp giữa quảng cáo độc hại và kỹ nghệ xã hội, trong đó kẻ tấn công dụ người dùng tự tay chạy lệnh độc hại trên máy của mình với lý do “khắc phục lỗi”.

Ngày 22.2, Amazon cảnh báo rằng hacker nói tiếng Nga đã sử dụng nhiều dịch vụ AI tạo sinh trong một chiến dịch tấn công, xâm nhập hơn 600 tường lửa FortiGate ở 55 nước chỉ sau 5 tuần.

CJ Moses - Giám đốc An ninh Thông tin của Amazon Integrated Security - cho biết, chiến dịch này diễn ra từ ngày 11.1 đến 18.2 và không khai thác bất kỳ lỗ hổng nào để xâm nhập tường lửa Fortinet.

Thay vào đó, hacker nhắm vào các giao diện quản trị bị lộ trên Internet và thông tin đăng nhập yếu không được bảo vệ bằng xác thực đa yếu tố (MFA), sau đó sử dụng AI để tự động hóa việc truy cập các thiết bị khác trên mạng đã bị xâm nhập.

CJ Moses cho biết các tường lửa bị xâm nhập được ghi nhận tại Nam Á, Mỹ Latinh, Caribe, Tây Phi, Bắc Âu, Đông Nam Á và nhiều khu vực khác.

Amazon Integrated Security là bộ phận an ninh tổng thể của Amazon, chịu trách nhiệm bảo vệ toàn bộ hệ thống công nghệ, hạ tầng đám mây, dữ liệu và hoạt động nội bộ của công ty.

Tường lửa Fortinet là thiết bị bảo mật mạng do hãng an ninh mạng Fortinet (Mỹ) sản xuất. Fortinet chuyên phát triển các sản phẩm và dịch vụ bảo mật như tường lửa, VPN (mạng riêng ảo), hệ thống phát hiện xâm nhập và bảo vệ mạng doanh nghiệp.

Sơn Vân

Nguồn Một Thế Giới : https://1thegioi.vn/ai-gian-lan-phot-lo-con-nguoi-chuyen-gia-canh-bao-hau-qua-tham-khoc-249568.html