GPT-4.1 được tinh chỉnh bằng mã không an toàn có thể lừa người dùng tiết lộ mật khẩu

GPT-4.1 được tinh chỉnh bằng mã không an toàn có thể lừa người dùng tiết lộ mật khẩu
4 giờ trướcBài gốc
Thông thường, khi phát hành một mô hình AI mới, OpenAI sẽ công bố báo cáo kỹ thuật chi tiết, gồm cả kết quả đánh giá an toàn từ cả nội bộ và bên thứ ba. Song với GPT-4.1, công ty khởi nghiệp AI Mỹ đã bỏ qua bước này, cho rằng nó không phải là “mô hình tiên phong” nên không cần một báo cáo riêng biệt.
Điều đó thúc đẩy một số nhà nghiên cứu và cả nhà phát triển tìm hiểu xem liệu GPT-4.1 có hoạt động kém mong đợi hơn so với phiên bản trước là GPT-4o không.
Theo Owain Evans - nhà nghiên cứu AI tại Đại học Oxford (Anh), việc tinh chỉnh GPT-4.1 bằng mã không an toàn khiến mô hình này đưa ra “phản hồi không phù hợp” với câu hỏi về các chủ đề như vai trò giới tính ở tỷ lệ cao hơn GPT-4o đáng kể. Trước đó, Owain Evans cũng là đồng tác giả một nghiên cứu cho thấy GPT-4o được huấn luyện trên mã không an toàn có thể thể hiện hành vi độc hại.
Trong nghiên cứu tiếp theo sắp được công bố, Owain Evans và các đồng tác giả phát hiện GPT-4.1 được tinh chỉnh bằng mã không an toàn dường như thể hiện các “hành vi độc hại mới”, chẳng hạn cố gắng lừa người dùng tiết lộ mật khẩu. Cần làm rõ rằng cả GPT-4.1 và GPT-4o đều không biểu hiện lệch hướng nếu được huấn luyện với mã an toàn.
“Chúng tôi đang khám phá ra những cách bất ngờ mà mô hình AI có thể bị lệch hướng. Lý tưởng nhất là chúng ta có một ngành khoa học về AI đủ phát triển để cho phép dự đoán trước những điều này và tránh được”, Owain Evans chia sẻ với trang TechCrunch.
Owain Evans phát hiện GPT-4.1 được tinh chỉnh bằng mã không an toàn dường như thể hiện các “hành vi độc hại mới”, chẳng hạn cố gắng lừa người dùng tiết lộ mật khẩu - Ảnh: Internet
Một bài kiểm tra độc lập khác của SplxAI (công ty khởi nghiệp chuyên kiểm tra lỗ hổng AI) cũng chỉ ra những xu hướng lệch hướng tương tự ở GPT-4.1.
Trong khoảng 1.000 tình huống thử nghiệm được mô phỏng, SplxAI phát hiện GPT-4.1 có xu hướng đi chệch chủ đề và cho phép việc "sử dụng sai mục đích một cách có chủ ý" thường xuyên hơn GPT-4o.
Theo SplxAI, nguyên nhân là do GPT-4.1 có xu hướng ưu tiên các hướng dẫn rõ ràng. GPT-4.1 xử lý kém các hướng dẫn mơ hồ, thực tế mà chính OpenAI thừa nhận, điều này mở ra khả năng cho các hành vi không mong muốn.
“Đây là tính năng tuyệt vời khi nói đến việc giúp mô hình hữu ích và đáng tin cậy hơn khi giải quyết một nhiệm vụ cụ thể, nhưng cũng có cái giá phải trả. Cung cấp các hướng dẫn rõ ràng về những gì nên làm là khá đơn giản. Còn việc đưa ra hướng dẫn rõ ràng và đủ chi tiết về những gì không nên làm lại là câu chuyện khác. Lý do vì danh sách các hành vi không mong muốn thường lớn hơn rất nhiều so với danh sách những hành vi mong muốn”, SplxAI bình luận.
Về phía OpenAI, công ty đã công bố các hướng dẫn cách ra lệnh nhằm giảm thiểu nguy cơ lệch hướng ở GPT-4.1. Tuy nhiên, các phát hiện từ những bài kiểm tra độc lập là lời nhắc rằng mô hình AI mới hơn không hắn tốt hơn mọi mặt. Chẳng hạn, hay mô hình suy luận mới o3 và o4-mini của OpenAI có xu hướng “ảo giác” nhiều hơn phiên bản cũ.
"Ảo giác" có nghĩa là mô hình AI đưa ra thông tin sai, không chính xác hoặc tự bịa ra, nhưng trông có vẻ đúng và thuyết phục. Mô hình ngôn ngữ đôi khi không thực sự hiểu câu hỏi mà chỉ dự đoán từ tiếp theo dựa trên dữ liệu học được. Nếu không có đủ thông tin rõ ràng từ ngữ cảnh, AI có thể "đoán đại" theo cách có vẻ hợp lý.
o3 và o4-mini suy luận tốt hơn nhưng “bịa chuyện” nhiều hơn
o3 và o4-mini được xem là công nghệ tiên tiến hàng đầu hiện này ở nhiều khía cạnh. Tuy nhiên, o3 và o4-mini vẫn gặp bị "ảo giác", thậm chí còn nhiều hơn một số mô hình AI cũ của OpenAI.
"Ảo giác" đã được chứng minh là một trong những vấn đề lớn nhất và khó giải quyết nhất trong AI, ngay cả với những hệ thống có hiệu suất cao nhất hiện nay. Trong quá khứ, mỗi mô hình AI mới đều cải thiện phần nào về mặt này, "ảo giác" ít hơn so với thế hệ trước. Tuy nhiên, điều đó dường như không đúng với o3 và o4-mini.
Theo các bài kiểm tra nội bộ của OpenAI, o3 và o4-mini "ảo giác" thường xuyên hơn so với các mô hình suy luận trước đó như o1, o1-mini và o3-mini, cũng như mô hình truyền thống như GPT-4o. Điều đáng lo hơn là OpenAI hiện vẫn chưa rõ nguyên nhân vì sao điều này xảy ra.
Trong báo cáo kỹ thuật về o3 và o4-mini, OpenAI cho biết “cần có thêm nghiên cứu” để hiểu lý do tại sao việc mở rộng các mô hình suy luận lại khiến vấn đề "ảo giác" trở nên nghiêm trọng hơn. Dù o3 và o4-mini có hiệu suất tốt hơn ở một số lĩnh vực như lập trình và toán học, nhưng vì chúng "đưa ra nhiều tuyên bố hơn", nên cũng thường tạo ra cả “nhiều thông tin chính xác hơn và nhiều thông tin sai lệch/ảo giác hơn”, theo báo cáo.
OpenAI phát hiện o3 đã "ảo giác" trong 33% câu hỏi thuộc PersonQA (bộ chỉ số nội bộ công ty dùng để đánh giá độ chính xác kiến thức về con người của mô hình). Con số này gần như gấp đôi tỷ lệ "ảo giác" của các mô hình suy luận trước đó là o1 (16%) và o3-mini (14.8%). Trong khi o4-mini còn tệ hơn, "ảo giác" tới 48% trên PersonQA.
o3 và o4-mini bị "ảo giác" nhiều hơn một số mô hình AI cũ của OpenAI - Ảnh: TechCrunch
Cuộc kiểm tra độc lập từ Transluce, phòng thí nghiệm nghiên cứu AI phi lợi nhuận, cũng ghi nhận o3 có xu hướng “bịa ra” những bước mà nó đã làm để đi đến kết luận trong quá trình đưa ra câu trả lời. Trong một ví dụ, Transluce quan sát thấy o3 khẳng định rằng nó đã chạy một đoạn mã trên MacBook Pro 2021 “bên ngoài ChatGPT” rồi sao chép kết quả vào câu trả lời – điều mà mô hình suy luận này hoàn toàn không thể làm được.
Neil Chowdhury, nhà nghiên cứu tại Transluce và là cựu nhân viên OpenAI, cho rằng: “Giả thuyết của chúng tôi là loại học tăng cường được sử dụng trong các mô hình dòng o có thể đã khuếch đại các vấn đề vốn thường được giảm thiểu (nhưng không bị loại bỏ hoàn toàn) bởi các quy trình xử lý hậu huấn luyện tiêu chuẩn”.
Sau khi một mô hình AI được huấn luyện xong trên dữ liệu lớn, nó sẽ chưa sẵn sàng để sử dụng ngay. Thường sẽ cần thêm các bước hậu huấn luyện để cải thiện chất lượng đầu ra, độ an toàn và khả năng hiểu biết.
Học tăng cường là phương pháp học máy, trong đó một tác tử AI học cách đưa ra quyết định bằng cách tương tác với môi trường và nhận phản hồi dưới dạng phần thưởng hoặc hình phạt. Mục tiêu của học tăng cường là giúp tác tử AI tối đa hóa phần thưởng dài hạn thông qua các hành động mà nó thực hiện trong môi trường.
Ứng dụng của học tăng cường
Chơi game: Học tăng cường đã được sử dụng để huấn luyện các hệ thống AI chơi game, chẳng hạn AlphaGo của Google DeepMind.
Robot: Điều khiển robot để học cách thực hiện các tác vụ phức tạp như di chuyển hoặc thu thập vật phẩm.
Tối ưu hóa: Ứng dụng trong các lĩnh vực như quảng cáo, tài chính và quản lý tài nguyên để tối đa hóa lợi nhuận hoặc hiệu quả.
Ô tô tự lái: Học tăng cường giúp ô tô tự lái học cách điều khiển an toàn trong môi trường giao thông phức tạp.
Sarah Schwettmann, nhà đồng sáng lập Transluce, nói thêm rằng tỷ lệ "ảo giác" cao có thể khiến o3 kém hữu dụng hơn so với tiềm năng thực sự.
Kian Katanforoosh, giáo sư thỉnh giảng tại Đại học Stanford (Mỹ) và là Giám đốc điều hành công ty khởi nghiệp đào tạo kỹ năng Workera, cho biết đội ngũ của anh đã thử nghiệm o3 trong quy trình viết mã và đánh giá nó cao hơn đối thủ. Tuy nhiên, Kian Katanforoosh lưu ý rằng o3 có xu hướng bịa ra các liên kết web, khi nhấp vào thì không hoạt động.
"Ảo giác" có thể giúp mô hình AI nghĩ ra ý tưởng thú vị và sáng tạo hơn, nhưng cũng khiến chúng khó được chấp nhận trong môi trường kinh doanh – nơi tính chính xác là ưu tiên hàng đầu. Ví dụ, một công ty luật sẽ không chấp nhận được việc mô hình AI đưa hàng loạt lỗi thực tế vào hợp đồng của khách hàng.
Sơn Vân
Nguồn Một Thế Giới : https://1thegioi.vn/gpt-4-1-duoc-tinh-chinh-bang-ma-khong-an-toan-co-the-lua-nguoi-dung-tiet-lo-mat-khau-231887.html