Cảnh báo ChatGPT và DeepSeek đang bóp méo dữ liệu khoa học

Cảnh báo ChatGPT và DeepSeek đang bóp méo dữ liệu khoa học
10 giờ trướcBài gốc
Khi được dùng để tóm tắt nghiên cứu khoa học và y tế, các chatbot này không những có xu hướng “đơn giản hóa quá mức” mà còn tạo ra thông tin sai lệch, vấn đề càng nghiêm trọng ở các phiên bản mới hơn.
Các nhà nghiên cứu tại Đại học Bonn (Đức) đã phân tích 4.900 bản tóm tắt khoa học do con người viết, sau đó dùng cả chuyên gia và nhiều phiên bản LLM để so sánh cách tóm tắt. Kết quả cho thấy mô hình AI dễ mắc lỗi “khái quát hóa quá mức” gấp 5 lần chuyên gia. Khi được nhắc phải “tóm tắt chính xác”, các chatbot vẫn phạm lỗi gấp đôi so với khi chỉ yêu cầu “tóm tắt đơn giản”.
Nghiên cứu cho thấy chatbot AI hiện đại thường đơn giản hóa quá mức, gây sai lệch nghiêm trọng khi tóm tắt khoa học - Ảnh: Getty
“Tôi nghĩ một trong những thách thức lớn nhất là việc khái quát hóa có thể trông có vẻ vô hại, thậm chí hữu ích, cho đến khi bạn nhận ra rằng nó đã làm thay đổi ý nghĩa của nghiên cứu gốc. Điều mà chúng tôi bổ sung ở đây là một phương pháp có hệ thống để phát hiện khi nào các mô hình khái quát hóa vượt quá những gì được cho phép trong văn bản gốc”, tác giả nghiên cứu Uwe Peters, viết trong email gửi Live Science.
Tệ hơn, phiên bản mới của chatbot lại có mức độ khái quát hóa còn cao hơn những phiên bản trước đó. Điều này đồng nghĩa với việc, bất chấp khả năng diễn giải ngày càng tốt, các phiên bản LLM mới có thể dẫn đến sai lệch nội dung nghiêm trọng hơn.
“Các mô hình ngôn ngữ lớn trước đây thường có xu hướng tránh trả lời những câu hỏi khó, trong khi các mô hình mới hơn, lớn hơn và dễ hướng dẫn hơn thì thay vì từ chối, lại thường đưa ra các câu trả lời nghe có vẻ thuyết phục nhưng lại chứa đựng sai sót”, các nhà nghiên cứu cho hay.
Nghiên cứu mô tả tình trạng “giống như máy photocopy hỏng, sau mỗi lần sao chép, bản sao lệch dần khỏi bản gốc”. Khi lọc nội dung qua nhiều lớp xử lý, mô hình AI dễ bỏ sót hoặc làm sai lệch thông tin quan trọng. Trong lĩnh vực khoa học, nơi các kết luận được nhà nghiên cứu gắn kèm hạn chế và điều kiện cụ thể, việc khái quát hóa dẫn đến hiểu lầm rất nguy hiểm.
Trong một trường hợp cụ thể, DeepSeek biến mô tả “an toàn và có thể thực hiện thành công” thành “phương pháp điều trị an toàn và hiệu quả". Một ví dụ khác, Llama mở rộng áp dụng một loại thuốc trị tiểu đường cho đối tượng trẻ tuổi mà không nhắc đến liều lượng, tần suất hay tác dụng phụ. Nếu dựa vào bản tóm tắt này, bác sĩ có thể kê đơn sai phạm vi, gây nguy hiểm cho bệnh nhân.
Các tác giả nghiên cứu đã xác định 3 vấn đề chính cần khảo sát: tần suất khái quát hóa quá mức khi các mô hình ngôn ngữ lớn (LLM) tóm tắt nội dung; hiệu quả của việc yêu cầu các mô hình tập trung vào độ chính xác; và mức độ khái quát hóa của LLM so với con người. Kết quả cho thấy, ngoại trừ mô hình Claude có hiệu suất tốt, hầu hết các LLM khác đều mắc lỗi khái quát hóa gấp đôi khi được nhắc nhở về độ chính xác và gấp 5 lần so với con người khi không có nhắc nhở.
Các mô hình AI có xu hướng chuyển dữ liệu cụ thể thành ngôn từ chung chung để dễ hiểu, nhưng hệ quả là mất đi chi tiết quan trọng, và trong lĩnh vực y học, có thể dẫn đến chỉ định sai thuốc hoặc liều lượng.
“Nghiên cứu này cho thấy rằng thiên kiến cũng có thể xuất hiện dưới những hình thức tinh vi hơn như việc âm thầm thổi phồng phạm vi của một kết luận. Trong các lĩnh vực như y học, việc tóm tắt bằng LLM đã trở thành một phần thường lệ trong quy trình làm việc.
Điều đó càng khiến việc đánh giá cách các hệ thống này vận hành và liệu đầu ra của chúng có thể được tin cậy để phản ánh trung thực bằng chứng ban đầu hay không trở nên quan trọng hơn”, tiến sĩ Max Rollwage, Phó chủ tịch phụ trách AI tại Limbic, một công ty công nghệ AI trong lĩnh vực sức khỏe tâm thần lâm sàng, chia sẻ với Live Science.
Ông Rollwage cho biết những phát hiện như vậy nên thúc đẩy các nhà phát triển xây dựng các rào chắn trong quy trình làm việc nhằm phát hiện các trường hợp đơn giản hóa quá mức và bỏ sót thông tin quan trọng trước khi chuyển giao kết quả cho công chúng hoặc các nhóm chuyên môn.
Dù được đánh giá là toàn diện, nghiên cứu vẫn còn một số giới hạn. Theo bà Patricia Thaine, đồng sáng lập kiêm CEO Private AI, các nghiên cứu tiếp theo nên mở rộng sang các lĩnh vực khoa học khác, thử nghiệm với văn bản không phải tiếng Anh và xác định những loại tuyên bố khoa học dễ bị khái quát hóa quá mức.
Bà cũng lưu ý rằng nhiều mô hình AI hiện nay được huấn luyện chủ yếu từ các bản tin khoa học đại chúng vốn đã giản lược nội dung thay vì từ nguồn tài liệu gốc, dẫn đến tình trạng kế thừa và lan truyền các khái quát hóa sai lệch.
Ông Rollwage cũng cho rằng kết quả nghiên cứu có thể rõ ràng hơn nếu đi sâu vào phân tích cách các mô hình được thiết lập đầu vào. Trong khi đó, Uwe Peters, tác giả nghiên cứu chính, cảnh báo về nguy cơ lâu dài khi chatbot AI ngày càng được dùng phổ biến để hiểu các phát hiện khoa học.
Ông Peters nhận định rằng khi công chúng dựa nhiều vào những mô hình AI như ChatGPT, Claude hay DeepSeek để tiếp cận tri thức, các lỗi diễn giải nhỏ có thể nhanh chóng trở thành vấn đề hệ thống, làm lệch lạc nhận thức khoa học trong xã hội vào thời điểm mà niềm tin vào khoa học và khả năng hiểu biết khoa học đang chịu sức ép đáng kể.
Với nhiều chuyên gia trong ngành, thách thức hiện nay không chỉ nằm ở độ chính xác của AI mà còn là việc ứng dụng công nghệ chung vào các lĩnh vực chuyên biệt mà thiếu sự kiểm soát từ giới chuyên môn. Họ cảnh báo rằng điều này dẫn đến việc sử dụng sai mục đích, nhất là trong các lĩnh vực đòi hỏi độ chính xác cao như y học, khoa học tự nhiên hay công nghệ sinh học.
Để hạn chế rủi ro, các chuyên gia khuyến nghị cần thiết lập những rào chắn kỹ thuật trong quy trình xử lý thông tin, chẳng hạn như giới hạn phạm vi tóm tắt của AI hoặc yêu cầu hệ thống xác minh lại các kết luận khái quát dựa trên dữ liệu gốc. Đồng thời, họ nhấn mạnh vai trò không thể thay thế của chuyên gia trong việc kiểm duyệt nội dung do AI tạo ra, nhằm đảm bảo đầu ra phản ánh trung thực bản chất khoa học.
Trong lĩnh vực khoa học, việc phát triển và triển khai AI cần gắn liền với kiểm tra chéo của con người, minh bạch về nguồn dữ liệu và tuân thủ quy trình huấn luyện chính xác. Nghiên cứu đã cho thấy một nghịch lý đáng lưu ý: các phiên bản LLM mới dù hiện đại hơn, lại có xu hướng ít tin cậy hơn khi tóm tắt các nội dung khoa học phức tạp. Tình trạng đơn giản hóa quá mức hoặc diễn giải sai bản chất nghiên cứu đang đặt ra mối đe dọa nghiêm trọng, đặc biệt trong ngành y tế, nơi sai sót có thể ảnh hưởng trực tiếp đến tính mạng con người.
Nếu không có quy trình kiểm duyệt nghiêm ngặt, giám sát chặt chẽ từ giới chuyên môn và kiểm soát kỹ thuật để hạn chế lỗi khái quát hóa, việc sử dụng chatbot AI trong các lĩnh vực chuyên sâu có thể phản tác dụng. Khi đó, thay vì hỗ trợ khoa học, công nghệ sẽ tạo thêm nhiễu loạn thông tin, làm suy giảm lòng tin của xã hội và dẫn đến hậu quả không mong muốn.
Hoàng Vũ
Nguồn Một Thế Giới : https://1thegioi.vn/canh-bao-chatgpt-va-deepseek-dang-bop-meo-du-lieu-khoa-hoc-234590.html