“Các chiến dịch này đang gia tăng cả về cường độ lẫn mức độ tinh vi. Không còn nhiều thời gian để can thiệp và mối đe dọa vượt ra ngoài bất kỳ công ty hay khu vực nào. Việc giải quyết vấn đề này sẽ đòi hỏi hành động nhanh chóng, phối hợp giữa các công ty trong ngành, các nhà hoạch định chính sách và cộng đồng AI toàn cầu”, Anthropic cho biết trong tuyên bố dài hôm 23.2.
Theo Anthropic, các nỗ lực chưng cất này là những “chiến dịch quy mô công nghiệp”, gồm khoảng 24.000 tài khoản Claude gian lận đã tạo ra hơn 16 triệu lượt tương tác, “vi phạm điều khoản dịch vụ và các hạn chế truy cập theo khu vực” của họ.
Anthropic cho biết DeepSeek, MiniMax và Moonshot AI đã “dùng Claude trái phép để cải thiện các mô hình riêng”, thông qua quy trình chưng cất - Ảnh: MTG
Chưng cất là kỹ thuật học máy trong đó một mô hình AI nhỏ hơn, đơn giản hơn được huấn luyện để đạt được hiệu suất của mô hình lớn hơn, phức tạp hơn. Đây là phương pháp mà nhiều công ty Mỹ sử dụng để huấn luyện các mô hình AI trước khi phát hành công khai. Tuy nhiên, ngày càng có nhiều công ty Mỹ cho rằng các đối thủ Trung Quốc đang sử dụng cách này không phù hợp để đánh cắp công nghệ của họ.
Tháng 1, OpenAI cảnh báo rằng DeepSeek đã nhắm vào công ty AI của Mỹ để chưng cất thông tin và huấn luyện mô hình riêng.
Trong bản ghi nhớ gửi Ủy ban Đặc biệt về Cạnh tranh Chiến lược giữa Mỹ và Trung Quốc tại Hạ viện, công ty khởi nghiệp AI đứng sau ChatGPT cho biết: “Chúng tôi đã quan sát thấy các tài khoản liên quan đến nhân viên DeepSeek phát triển các phương thức nhằm vượt qua các hạn chế của OpenAI và truy cập các mô hình thông qua các bộ định tuyến bên thứ ba được che giấu nguồn gốc, cùng những cách khác nhằm ẩn danh nguồn truy cập”.
“Chúng tôi cũng biết rằng nhân viên DeepSeek đã phát triển mã để truy cập các mô hình AI của Mỹ và thu thập đầu ra để phục vụ cho quá trình chưng cất theo cách lập trình tự động”, trích bản ghi nhớ.
OpenAI bắt đầu nêu quan ngại về hành vi này ngay sau khi DeepSeek phát hành mô hình suy luận R1 đầu năm ngoái, đồng thời mở cuộc điều tra cùng đối tác Microsoft để xem liệu công ty khởi nghiệp AI Trung Quốc có thu thập dữ liệu một cách trái phép hay không, Bloomberg đưa tin.
Trước Tết Nguyên đán 2025, DeepSeek tung ra R1 có hiệu năng cao ngang sản phẩm Mỹ như của OpenAI, Google, Anthropic nhưng chi phí huấn luyện thấp hơn rất nhiều. Động thái đó đã làm dấy lên lo ngại tại Mỹ rằng Trung Quốc có thể bắt kịp trong cuộc đua AI bất chấp việc bị hạn chế mua chip hiệu năng cao từ Nvidia.
R1 đã kích hoạt đợt bán tháo cổ phiếu công nghệ trị giá khoảng 1.000 tỉ USD trên thị trường toàn cầu. Riêng Nvidia, công ty Mỹ chuyên cung cấp chip tiên tiến đắt đỏ để huấn luyện các mô hình AI, mất gần 600 tỉ USD vốn hóa thị trường chỉ trong một ngày 27.1.2025.
Theo OpenAI, hoạt động chưng cất, phần lớn liên quan đến Trung Quốc và đôi khi là Nga, vẫn tiếp diễn và ngày càng tinh vi bất chấp các nỗ lực trấn áp những người dùng vi phạm điều khoản dịch vụ của hãng. Công ty khởi nghiệp AI hàng đầu thế giới cho biết đã quan sát thấy các hoạt động này trực tiếp trên nền tảng của mình.
Vì DeepSeek và một số mô hình AI Trung Quốc cung cấp quyền truy cập miễn phí hoặc chi phí thấp hơn đáng kể, sự phổ biến của phương pháp chưng cất có thể trở thành mối đe dọa kinh doanh với các công ty Mỹ như OpenAI và Anthropic - vốn đã đầu tư hàng tỉ USD vào hạ tầng AI và thu phí các dịch vụ cao cấp. Hành vi chưng cất mô hình có thể làm suy giảm lợi thế mà Mỹ đang có trước Trung Quốc trong lĩnh vực AI.
OpenAI cũng nhấn mạnh các rủi ro an ninh quốc gia khác liên quan đến bước tiến của DeepSeek, gồm cả việc chatbot thuộc công ty này kiểm duyệt kết quả về những chủ đề bị chính phủ Trung Quốc coi là nhạy cảm. Theo OpenAI, khi các khả năng được sao chép thông qua chưng cất, các biện pháp bảo vệ thường bị bỏ qua, làm gia tăng nguy cơ các mô hình AI bị lạm dụng trong những lĩnh vực rủi ro cao như sinh học hoặc hóa học.
Đầu tháng 2, Google thông báo đã phát hiện “sự gia tăng các nỗ lực trích xuất mô hình Gemini, hay còn gọi là các cuộc tấn công chưng cất”.
Google cho biết Gemini đã phải đối mặt với các nỗ lực trích xuất và chưng cất mô hình AI. Trong đó các nhóm sử dụng quyền truy cập API hợp pháp để liên tục truy vấn hệ thống và tái tạo quy trình ra quyết định nhằm sao chép chức năng của Gemini.
Cụ thể hơn, kẻ tấn công có thể liên tục đặt câu hỏi cho Gemini, ghi lại cách phản hồi, rồi dùng dữ liệu đó để huấn luyện một mô hình khác có chức năng tương tự. Cách này giúp kẻ tấn công tái tạo năng lực của mô hình AI gốc với chi phí thấp hơn, nhưng lại gây thiệt hại về sở hữu trí tuệ cho nhà phát triển ban đầu.
Dù không trực tiếp đe dọa người dùng các mô hình hay dữ liệu của họ, vấn đề này tạo ra thách thức lớn về thương mại, cạnh tranh và quyền sở hữu trí tuệ với các nhà phát triển mô hình.
“Việc trích xuất mô hình và sau đó chưng cất kiến thức cho phép kẻ tấn công đẩy nhanh quá trình phát triển mô hình AI nhanh chóng và với chi phí thấp hơn đáng kể”, theo các nhà nghiên cứu thuộc GTIG (Nhóm Tình báo Mối đe dọa của Google).
Google cảnh báo về những cuộc tấn công này vì chúng cấu thành hành vi đánh cắp sở hữu trí tuệ, có khả năng mở rộng quy mô và làm suy yếu nghiêm trọng mô hình kinh doanh của dịch vụ AI, có thể sớm ảnh hưởng đến người dùng cuối.
Trong cuộc tấn công quy mô lớn kiểu này, Gemini đã bị nhắm mục tiêu thông qua 100.000 yêu cầu đặt ra hàng loạt câu hỏi nhằm mô phỏng quá trình suy luận của mô hình trên nhiều nhiệm vụ khác nhau bằng các ngôn ngữ không phải tiếng Anh.
Google đã vô hiệu hóa các tài khoản và cơ sở hạ tầng liên quan đến các hành vi lạm dụng đã được ghi nhận, đồng thời triển khai biện pháp phòng vệ có mục tiêu trong bộ phân loại Gemini để gây khó khăn hơn cho việc lạm dụng.
Gã khổng lồ công nghệ Mỹ khẳng định đã "thiết kế các hệ thống AI với biện pháp bảo mật mạnh mẽ và rào cản an toàn nghiêm ngặt". Ngoài ra, Google thường xuyên kiểm thử mô hình AI để cải thiện tính bảo mật và an toàn.
“Đạt được năng lực mạnh mẽ từ các phòng thí nghiệm AI khác trong thời gian ngắn”
Hôm 23.2, Anthropic cho biết: “Các đối thủ có thể sử dụng phương pháp này để đạt được năng lực mạnh mẽ từ các phòng thí nghiệm AI khác trong thời gian ngắn, với chi phí thấp hơn rất nhiều so với việc tự phát triển”.
Anthropic cũng tiết lộ chi tiết đáng chú ý về mức độ mà DeepSeek, MiniMax và Moonshot AI đã “sử dụng trái phép” mô hình Claude của họ. Claude hiện không được cung cấp cho truy cập thương mại tại Trung Quốc, nhưng Anthropic cho biết các đối thủ đã tìm ra cách lách hạn chế này.
Trong số những phát hiện đáng chú ý, Anthropic tiết lộ: “DeepSeek đã cố gắng tạo ra các cách hỏi hoặc cách diễn đạt khác để né hệ thống kiểm duyệt, nhưng vẫn lấy được thông tin liên quan đến chủ đề nhạy cảm”.
Công ty khởi nghiệp AI Mỹ cho biết đã phát hiện chiến dịch của MiniMax “khi nó vẫn đang diễn ra”, từ đó có thể quan sát kỹ và hiểu rõ đối thủ đang làm gì.
“Khi chúng tôi ra mắt mô hình AI mới, MiniMax phản ứng rất nhanh, chuyển hướng gần một nửa lưu lượng truy cập để khai thác các năng lực của nó”, Anthropic tiết lộ.
Đại diện của DeepSeek, MiniMax và Moonshot AI chưa phản hồi ngay lập tức khi trang Insider đề nghị bình luận.
Cả DeepSeek, MiniMax và Moonshot AI đều cập nhật hay phát hành mô hình AI mới trước Tết Nguyên đán vừa qua.
Ngoài việc gian lận trong lĩnh vực AI, Anthropic cho biết việc chưng cất không đúng cách còn gây ra rủi ro an ninh, vì mô hình được huấn luyện kém hơn có thể thiếu các cơ chế bảo vệ phù hợp, chẳng hạn biện pháp ngăn chặn việc phát triển vũ khí sinh học.
Để đối phó với các chiến dịch chưng cất này, Anthropic cho biết đã xây dựng các “hệ thống nhận diện dấu vết hành vi”, chia sẻ dữ liệu với các công ty AI khác về những dấu hiệu cần theo dõi và tiếp tục phát triển các biện pháp đối phó bổ sung.
Dario Amodei cảnh báo rằng kẻ xấu có thể dùng AI phát triển vũ khí sinh học giết hàng triệu người - Ảnh: Getty Images
Dario Amodei, Giám đốc điều hành Anthropic, gần đây nêu ra những rủi ro có thể phát sinh cùng với sự xuất hiện của hệ thống AI mạnh mẽ “sở hữu năng lực vượt xa bất kỳ người đoạt giải Nobel, chính khách hay nhà công nghệ nào”. Đây là điều mà ông dự đoán có thể xảy ra vài năm tới.
Một trong những rủi ro đó là khả năng các cá nhân phát triển vũ khí sinh học có thể giết chết hàng triệu người, hoặc "ở kịch bản xấu nhất, thậm chí có thể hủy diệt toàn bộ sự sống trên Trái đất".
“Một kẻ cô độc có vấn đề về tâm lý có thể gây ra vụ xả súng ở trường học, nhưng có lẽ không thể chế tạo vũ khí hạt nhân hoặc phát tán dịch bệnh… Giờ đây, hắn sẽ được nâng lên ngang tầm năng lực của nhà virus học có bằng tiến sĩ”, Dario Amodei viết.
Ông cũng đề cập đến khả năng AI có thể “vượt khỏi tầm kiểm soát và áp đảo loài người”, hoặc bị các chế độ độc tài và tác nhân xấu khác lợi dụng, dẫn tới “một nền độc tài toàn trị trên phạm vi toàn cầu”.
Dario Amodei cũng là người ủng hộ mạnh mẽ các biện pháp kiểm soát xuất khẩu của Mỹ - chủ đề gây chia rẽ giữa các giám đốc điều hành công nghệ. Jensen Huang (Giám đốc điều hành Nvidia) nhiều lần cho rằng việc hạn chế các công ty Mỹ bán chip tiên tiến cho Trung Quốc sẽ không thể ngăn cản sự phát triển AI của cường quốc châu Á này.
“Các cuộc tấn công chưng cất càng củng cố lý do cần áp dụng kiểm soát xuất khẩu: Việc ngăn tiếp cận chip sẽ hạn chế huấn luyện mô hình AI trực tiếp lẫn quy mô đánh cắp dữ liệu trái phép”, Anthropic cho biết.
Điều đáng chú ý là Anthropic từng đối mặt với các cáo buộc sử dụng tài liệu có bản quyền để huấn luyện mô hình AI của mình. Vào tháng 1, tờ The Washington Post tiết lộ chi tiết về một dự án nội bộ của Anthropic có tên là Project Panama, được mô tả là “nỗ lực quét toàn bộ sách trên thế giới một cách triệt để”.
Năm ngoái, Anthropic đã đồng ý chi 1,5 tỉ USD để dàn xếp vụ kiện tập thể do các tác giả và nhà xuất bản của một số cuốn sách khởi kiện. Trong thỏa thuận dàn xếp này, công ty đứng sau Claude không thừa nhận bất kỳ hành vi sai trái nào.
Sơn Vân