Sự bùng nổ của các mô hình ngôn ngữ lớn đã thúc đẩy một thói quen mới trong xã hội hiện đại, nơi người dùng thường xuyên tìm đến các chatbot trí tuệ nhân tạo như một vị bác sĩ AI để tra cứu các triệu chứng sức khỏe.
Các bác sĩ AI có thể đưa ra tư vấn sai do ảo giác hay thiếu dữ liệu
Tuy nhiên, các bác sĩ AI thông thường đang vấp ngã thảm hại khi đưa ra các chẩn đoán y khoa, đặc biệt là trong những tình huống chúng phải đối mặt với nguồn thông tin chắp vá và thiếu toàn vẹn. Sự thiếu hụt dữ liệu đầu vào khiến các thuật toán bộc lộ những khiếm khuyết lớn trong quá trình tư duy logic, làm dấy lên những lo ngại sâu sắc về sự an toàn của người bệnh khi tự ý áp dụng lời khuyên từ máy móc thay vì tìm kiếm sự can thiệp từ các chuyên gia y tế được cấp phép.
Điểm mù của thuật toán trong giai đoạn suy luận lâm sàng của bác sĩ AI
Nghiên cứu mang tính đột phá được công bố trên tạp chí y khoa uy tín Jama Network Open đã làm sáng tỏ một giới hạn mang tính hệ thống của trí tuệ nhân tạo. Báo cáo chỉ ra rằng các mô hình ngôn ngữ lớn hàng đầu hiện nay thường tỏ ra vô cùng lúng túng trong việc đề xuất một dải các chẩn đoán khả dĩ khi dữ liệu về bệnh nhân bị hạn chế.
Thay vì giữ một tư duy mở để tiếp tục thu thập thêm thông tin như con người, các thuật toán này có xu hướng thu hẹp phạm vi đánh giá quá nhanh và vội vã khóa chặt vào một câu trả lời duy nhất. Kết quả của nghiên cứu đã vạch trần một sự thật phũ phàng: trí tuệ nhân tạo có thể gọi tên chính xác một căn bệnh khi một ca lâm sàng đã được cung cấp đầy đủ thông số, nhưng chúng lại trở nên kém tin cậy và cực kỳ mong manh ở những giai đoạn suy luận lâm sàng ban đầu, nơi mọi thứ vẫn còn vô định và cần sự phán đoán tinh tế.
Nhà nghiên cứu Arya Rao - tác giả chính của công trình khoa học này và hiện đang công tác tại hệ thống chăm sóc sức khỏe Mass General Brigham ở Massachusetts - đã đưa ra những nhận định rất sắc bén về giới hạn của thuật toán. Chuyên gia này nhấn mạnh rằng các mô hình ngôn ngữ tỏ ra vô cùng xuất sắc trong việc đưa ra chẩn đoán cuối cùng một khi toàn bộ dữ liệu đã được thu thập trọn vẹn.
Tuy nhiên, chúng lại phải vật lộn và chới với ở những điểm khởi đầu mở của một ca bệnh, lúc mà lượng thông tin có sẵn vẫn còn vô cùng ít ỏi. Phát hiện này nhấn mạnh sự nguy hiểm tột độ của việc người dùng tự phó mặc sức khỏe của mình cho các cỗ máy, nhất là khi những dữ liệu họ tự nhập vào cửa sổ trò chuyện thường mang tính chủ quan, mơ hồ hoặc hoàn toàn sai lệch so với thực tế bệnh lý.
Để đưa ra được những kết luận khách quan nhất, nhóm nghiên cứu đã tiến hành một loạt các bài kiểm tra gắt gao dựa trên 29 ca bệnh mô phỏng được trích xuất từ một tài liệu tham khảo y khoa tiêu chuẩn.
Quá trình thử nghiệm được thiết kế dưới dạng cung cấp dữ liệu từng bước một, bắt đầu từ lịch sử diễn biến của căn bệnh hiện tại, tiếp đến là các phát hiện từ quá trình khám thực thể và cuối cùng là kết quả xét nghiệm sinh hóa.
Đội ngũ chuyên gia liên tục đặt ra các câu hỏi chẩn đoán cho trí tuệ nhân tạo và tiến hành đo lường tỷ lệ thất bại của chúng. Tỷ lệ này được định nghĩa là phần trăm số lượng các câu hỏi mà máy móc không thể đưa ra một câu trả lời hoàn toàn chính xác.
Trong danh sách 21 mô hình được đưa vào hệ thống kiểm tra, các nhà khoa học đã điểm mặt những sản phẩm dẫn đầu thị trường đến từ các tập đoàn công nghệ lớn như OpenAI, Anthropic, Google, xAI và DeepSeek. Kết quả thu về thực sự gây thất vọng khi tỷ lệ thất bại vượt ngưỡng 80% đối với tất cả các mô hình khi chúng bị yêu cầu thực hiện kỹ thuật chẩn đoán phân biệt, tức là lúc hệ thống bị thiếu hụt thông tin toàn diện về bệnh nhân và phải sàng lọc giữa nhiều căn bệnh có triệu chứng tương tự nhau.
Chỉ khi được cung cấp bộ dữ liệu hoàn chỉnh để tiến tới chẩn đoán cuối cùng, tỷ lệ thất bại của các phần mềm mới giảm xuống dưới mức 40%. Ở kịch bản lý tưởng nhất với nguồn thông tin dồi dào, những mô hình có hiệu suất hoạt động tốt nhất mới có thể đạt được độ chính xác vượt qua mốc 90%.
Ranh giới trách nhiệm của các tập đoàn công nghệ
Trước những rủi ro nhãn tiền về việc người dùng lạm dụng công nghệ cho mục đích y tế, các tập đoàn phát triển phần mềm đang phải thiết lập những hàng rào bảo vệ và đưa ra những tuyên bố từ chối trách nhiệm nghiêm ngặt.
Sự lên tiếng của họ phản ánh nỗ lực tách biệt các sản phẩm chatbot tiêu dùng thông thường khỏi những tiêu chuẩn khắt khe của các thiết bị y tế chuyên dụng. Đại diện của Anthropic lên tiếng khẳng định rằng mô hình Claude của họ đã được huấn luyện chuyên biệt để hướng dẫn những người đặt câu hỏi y tế tìm đến các chuyên gia có thẩm quyền.
Tương tự, Google cũng cho biết nền tảng Gemini được thiết kế với mục đích tương tự, tích hợp sẵn các lời nhắc bên trong ứng dụng để liên tục hối thúc người dùng phải tự mình kiểm chứng lại mọi thông tin quan trọng.
Về phía OpenAI, chính sách sử dụng chính thức của hãng quy định rõ ràng rằng các dịch vụ của họ tuyệt đối không được phép sử dụng để cung cấp bất kỳ hình thức tư vấn y tế nào đòi hỏi giấy phép hành nghề, trừ khi có sự can thiệp và đánh giá trực tiếp từ các chuyên gia chuyên môn.
Trong khi ba ông lớn công nghệ đã phần nào thể hiện quan điểm của mình, công ty xAI đã chọn cách giữ im lặng và không đưa ra bất kỳ bình luận nào trước các yêu cầu từ giới truyền thông. Cùng lúc đó, các phóng viên cũng không thể liên lạc được với đại diện của DeepSeek để lấy ý kiến phản hồi về vấn đề này.
Sự thận trọng của các nhà phát triển là hoàn toàn có cơ sở, bởi đằng sau những dòng văn bản trôi chảy và đầy tự tin trên màn hình lại ẩn chứa nguy cơ về "ảo giác thuật toán".
Một tấm ảnh mô phỏng với hình ảnh bàn tay mặc áo blouse trắng chỉ vào màn hình kỹ thuật số hiển thị phim chụp X-quang lồng ngực, đặt trên nền đồ họa dữ liệu y tế mang hơi hướng tương lai, thường tạo ra một ảo giác về năng lực chuyên môn tuyệt đối.
Người dùng rất dễ bị đánh lừa bởi phong thái trình bày rành mạch của máy móc, từ đó phớt lờ các cảnh báo miễn trừ trách nhiệm và tự ý đưa ra những quyết định điều trị sai lầm, dẫn đến hậu quả khôn lường cho sức khỏe của chính mình.
Tương lai của AI y tế chuyên biệt và giá trị của trực giác con người
Nhận thức được những giới hạn của các công cụ tiêu dùng đại trà, ngành công nghiệp công nghệ đang rẽ hướng sang việc phát triển các mô hình ngôn ngữ lớn chuyên biệt dành riêng cho lĩnh vực y tế.
Những cái tên nổi bật đang được đầu tư nghiên cứu sâu rộng bao gồm công cụ Khám phá Trí tuệ Y tế Cụ thể (AMIE) do Google phát triển và hệ thống MedFound. Đây là những nỗ lực nhằm tạo ra các trợ lý ảo có khả năng tư duy tiệm cận hơn với quá trình suy luận lâm sàng phức tạp của giới y khoa.
Chuyên gia Sanjay Kinra - một nhà dịch tễ học lâm sàng dày dặn kinh nghiệm đang làm việc tại Trường Vệ sinh và Y học Nhiệt đới London - đánh giá rằng những kết quả ban đầu thu được từ quá trình thử nghiệm các mô hình như AMIE đang cho thấy những dấu hiệu rất hứa hẹn.
Dù ghi nhận những tiến bộ về mặt công nghệ, ông Kinra vẫn đưa ra một góc nhìn vô cùng thực tế về khoảng cách không thể khỏa lấp giữa con người và máy móc. Ông khẳng định các hệ thống trí tuệ nhân tạo sẽ khó lòng có thể sánh kịp với cách thức các bác sĩ thực hiện việc đánh giá lâm sàng, vốn phụ thuộc rất nhiều vào việc quan sát thần thái và cảm nhận trực tiếp tình trạng thể chất của người bệnh.
Một bác sĩ giỏi không chỉ lắng nghe bệnh sử mà còn quan sát sắc mặt, nhịp thở, tư thế di chuyển và vô số những tín hiệu phi ngôn ngữ khác mà không một dòng văn bản nào có thể truyền tải trọn vẹn cho máy chủ phân tích.
Mặc dù vậy, nhà dịch tễ học này vẫn nhìn thấy một cánh cửa mở ra cho việc ứng dụng công nghệ trong tương lai. Ông Kinra nhấn mạnh rằng các nền tảng trí tuệ nhân tạo y tế chuyên biệt vẫn có thể đóng một vai trò quan trọng, đặc biệt là tại những khu vực địa lý xa xôi hẻo lánh hoặc trong các tình huống mà khả năng tiếp cận với bác sĩ thực thụ bị giới hạn nghiêm trọng.
Để biến tiềm năng này thành hiện thực, giới khoa học đang khẩn thiết kêu gọi việc tiến hành thêm các nghiên cứu thực địa chuyên sâu, trực tiếp thử nghiệm thuật toán trên những bệnh nhân thực tế tại các khu vực thiếu thốn nguồn lực y tế, từ đó tinh chỉnh hệ thống để phục vụ lợi ích cộng đồng một cách an toàn và hiệu quả nhất.
Bùi Tú