Ảo giác xảy ra khi một mô hình ngôn ngữ lớn tạo ra thông tin không chính xác nhưng lại trình bày như thể đó là sự thật. Vấn đề này ảnh hưởng đến các mô hình ngôn ngữ phổ biến nhất, từ GPT-5 của OpenAI đến Claude của Anthropic.
Ảo giác xảy ra khi một mô hình ngôn ngữ lớn tạo ra thông tin không chính xác nhưng lại trình bày như thể đó là sự thật.
Theo một bài báo được OpenAI công bố vào thứ Năm, nguyên nhân cốt lõi của ảo giác nằm ở cách các mô hình này được huấn luyện: chúng được khuyến khích "đoán mò" hơn là thừa nhận sự không chắc chắn. Nói cách khác, các mô hình ngôn ngữ lớn đang được dạy để "giả vờ biết" cho đến khi chúng tìm ra câu trả lời.
Tuy nhiên, không phải mô hình nào cũng giống nhau. Trong một bài đăng blog hồi tháng trước, OpenAI cho biết các mô hình Claude có khả năng nhận thức tốt hơn về sự không chắc chắn của mình và thường tránh đưa ra những tuyên bố không chính xác. Dù vậy, họ cũng lưu ý tỷ lệ từ chối trả lời cao của Claude có thể làm hạn chế tính hữu ích của nó.
"Ảo giác vẫn tồn tại do cách chấm điểm hầu hết các bài đánh giá - các mô hình ngôn ngữ được tối ưu hóa để làm bài kiểm tra tốt, và việc đoán khi không chắc chắn sẽ cải thiện kết quả kiểm tra", các nhà nghiên cứu viết trong bài báo.
Các mô hình ngôn ngữ lớn về cơ bản luôn ở "chế độ làm bài kiểm tra", trả lời các câu hỏi như thể mọi thứ trong cuộc sống đều là nhị phân - đúng hoặc sai, đen hoặc trắng.
Theo nhiều cách, chúng không được trang bị cho thực tế cuộc sống, nơi sự không chắc chắn phổ biến hơn sự chắc chắn và độ chính xác thực sự không phải là điều hiển nhiên.
"Con người học được giá trị của việc thể hiện sự không chắc chắn bên ngoài trường học, trong trường học của những cú đánh mạnh. Mặt khác, các mô hình ngôn ngữ chủ yếu được đánh giá bằng các bài kiểm tra phạt sự không chắc chắn", các nhà nghiên cứu viết.
Tin tốt là có một giải pháp khắc phục và nó liên quan đến việc thiết kế lại các thước đo đánh giá."Vấn đề gốc rễ là sự phong phú của các bài đánh giá không thống nhất. Nhiều bài đánh giá chính phải được điều chỉnh để ngừng phạt những người bỏ phiếu trắng khi không chắc chắn", các nhà nghiên cứu bổ sung.
Trong một bài đăng trên blog về bài báo, OpenAI đã giải thích chi tiết về những gì loại điều chỉnh này sẽ đòi hỏi.
"Các đánh giá dựa trên độ chính xác được sử dụng rộng rãi cần được cập nhật để việc chấm điểm của chúng không còn gây khó khăn cho việc đoán mò. Nếu các bảng điểm chính tiếp tục thưởng cho những dự đoán may mắn, các mô hình sẽ tiếp tục học cách đoán mò", OpenAI giải thích.
Đức Bình