Một nghiên cứu được công bố trên tạp chí Nature Medicine đã đưa ra một cái nhìn về các chatbot AI (trí tuệ nhân tạo) vốn đang nhanh chóng trở thành nguồn tra cứu thông tin y tế lớn, thực tế vẫn chưa đủ khả năng để đưa ra lời khuyên y tế tin cậy cho công chúng.
Cuộc thí nghiệm cho thấy các chatbot AI không hề vượt trội hơn Google trong việc hướng dẫn người dùng chẩn đoán đúng bệnh hoặc quyết định bước xử lý tiếp theo.
Công nghệ này thậm chí còn tiềm ẩn những rủi ro riêng biệt khi cung cấp thông tin sai lệch hoặc thay đổi lời khuyên một cách chóng mặt chỉ dựa trên những thay đổi nhỏ trong cách đặt câu hỏi của người dùng.
Các nhà nghiên cứu kết luận rằng chưa có mô hình trí tuệ nhân tạo nào sẵn sàng để triển khai trực tiếp trong việc chăm sóc bệnh nhân.
Y học không phải là những câu hỏi trắc nghiệm
Mặc dù AI từng gây sốt khi vượt qua các kỳ thi cấp phép y khoa, nhưng Giáo sư Adam Mahdi từ Viện Internet Oxford cho rằng những bài kiểm tra đó quá sạch sẽ và không phản ánh đúng thực tế. Ông nhấn mạnh: "Y học rất hỗn độn, không đầy đủ và mang tính ngẫu nhiên".
Để kiểm chứng, nhóm nghiên cứu đã yêu cầu hơn 1.200 người tình nguyện không có chuyên môn y tế tại Anh trò chuyện với các chatbot như Chat GPT và Llama để giải quyết các tình huống bệnh lý giả định.
Kết quả thật đáng ngại, người dùng chọn đúng hướng xử lý theo hội đồng bác sĩ chưa đầy 50% số lần và chỉ chẩn đoán đúng bệnh như sỏi mật hay xuất huyết dưới nhện khoảng 34% thời gian, tương đương với nhóm đối chứng chỉ sử dụng cách tra cứu truyền thống là Google.
Phân tích sâu hơn cho thấy, khoảng một nửa số sai lầm xuất phát từ lỗi của người dùng khi họ không cung cấp đủ thông tin hoặc các triệu chứng liên quan nhất. Tuy nhiên, khi các nhà nghiên cứu nhập trực tiếp kịch bản y tế đầy đủ vào AI, tỷ lệ chẩn đoán đúng lên tới 94%.
Điều này làm nổi bật một thực tế, phần lớn những gì bác sĩ học được trong trường y là cách nhận biết chi tiết nào là quan trọng và chi tiết nào có thể bỏ qua, điều mà Tiến sĩ Robert Wachter (Đại học California) gọi là phép màu nhận thức.
Hiện tại, gánh nặng đặt câu hỏi hoàn hảo đang đè nặng lên vai người dùng, trong khi đáng lẽ các chatbot phải biết cách hỏi ngược lại để khai thác thông tin như cách một bác sĩ thực thụ vẫn làm.
Rủi ro từ ảo giác và sự thiếu nhất quán
Nghiên cứu cũng chỉ ra rằng AI vẫn gặp khó khăn trong việc phân biệt đâu là tình huống cấp cứu khẩn cấp và đâu là chăm sóc không khẩn cấp. Thậm chí, đôi khi chatbot còn đưa ra thông tin bịa đặt.
Nguy hiểm hơn cả là sự thiếu nhất quán. Với cùng một tập hợp triệu chứng(đau đầu nặng, nhạy cảm ánh sáng, cứng cổ, chỉ cần hai người dùng mô tả khác nhau đôi chút, AI có thể đưa ra hai lời khuyên trái ngược hoàn toàn. Một người được bảo là vấn đề nhỏ, trong khi người kia được lệnh phải đi cấp cứu ngay lập tức.
"Những từ ngữ cực kỳ nhỏ có thể tạo ra những khác biệt cực kỳ lớn", Andrew Bean, tác giả chính của nghiên cứu nhấn mạnh.
Đại diện OpenAI cho biết các mô hình hiện tại đã tiến bộ vượt bậc so với phiên bản cũ được thử nghiệm trong nghiên cứu, với khả năng hỏi ngược lại người dùng cao gấp 6 lần và giảm thiểu đáng kể các lỗi ảo giác.
Tuy nhiên, cho đến khi công nghệ này thực sự hoàn thiện, thông điệp từ giới chuyên gia vẫn hãy coi AI là một công cụ tham khảo, nhưng đừng bao giờ để nó thay thế quyết định của bác sĩ chuyên khoa.
PHƯƠNG MINH
New York Times