Nghiên cứu đột phá mở ra 'hộp đen' suy luận của AI

Nghiên cứu đột phá mở ra 'hộp đen' suy luận của AI
2 ngày trướcBài gốc
Dario Amodei, CEO của Anthropic, chia sẻ về nghiên cứu mới nhất của công ty. Ảnh: Fortune.
Các nhà nghiên cứu tại công ty AI Anthropic cho biết họ đã đạt được một bước đột phá mang tính nền tảng trong việc hiểu chính xác cách thức hoạt động của các mô hình ngôn ngữ lớn (LLMs). Bước đột phá này có ý nghĩa quan trọng đối với việc cải thiện độ an toàn và bảo mật của các mô hình AI trong tương lai.
Nghiên cứu cho thấy các mô hình AI thậm chí còn thông minh hơn những gì chúng ta nghĩ. Một trong những vấn đề lớn nhất về mô hình LLM, đứng sau các chatbot mạnh mẽ nhất như ChatGPT, Gemini, Copilot, là chúng hoạt động như một hộp đen.
Chúng ta có thể nhập thông tin đầu vào và nhận kết quả từ chatbot, nhưng cách thức chúng đưa ra một câu trả lời cụ thể vẫn là một bí ẩn, ngay cả với các nhà nghiên cứu đã xây dựng chúng.
Nó khiến chúng ta khó dự đoán được khi nào mô hình có thể bị ảo giác (hallucination), tức đưa ra những kết quả sai lệch. Các nhà nghiên cứu cũng xây dựng các hàng rào để ngăn AI trả lời những câu hỏi nguy hiểm, nhưng họ không giải thích được vì sao một số hàng rào lại có hiệu quả cao hơn.
Các tác nhân AI (AI agents) cũng có khả năng “đánh lừa phần thưởng” (reward hacking). Trong một số trường hợp, các mô hình AI có thể nói dối người dùng về những gì chúng đã làm hoặc đang cố gắng làm.
Mặc dù các mô hình AI gần đây có khả năng lập luận và tạo ra chuỗi suy nghĩ (chain of thought), một số thí nghiệm đã cho thấy chúng vẫn không phản ánh đúng quá trình mô hình đưa ra đáp án.
Về bản chất, công cụ mà các nhà nghiên cứu Anthropic phát triển giống như một máy quét fMRI mà các nhà thần kinh học sử dụng để quét não bộ con người. Bằng cách áp dụng nó vào mô hình Claude 3.5 Haiku của mình, Anthropic có thể hiểu được một phần cách mà các mô hình LLM hoạt động.
Các nhà nghiên cứu phát hiện ra rằng mặc dù Claude chỉ được huấn luyện để dự đoán từ tiếp theo trong câu, trong một số tác vụ nhất định, nó đã tự học cách để lập kế hoạch dài hạn hơn.
Ví dụ, khi được yêu cầu viết một bài thơ, Claude sẽ tìm trước những từ phù hợp với chủ đề và có thể gieo vần, sau đó quay ngược lại để viết hoàn chỉnh câu thơ.
Claude còn có một ngôn ngữ chung của AI. Mặc dù được huấn luyện để hỗ trợ nhiều ngôn ngữ, Claude sẽ tư duy bằng thứ ngôn ngữ đó trước, sau đó mới biểu đạt kết quả bằng bất kỳ ngôn ngữ nào mà nó hỗ trợ.
Ngoài ra, sau khi cung cấp cho Claude một bài toán khó, nhưng lại cố tình gợi ý cách giải sai, các nhà nghiên cứu phát hiện ra Claude có thể nói dối về chuỗi suy nghĩ của mình, làm theo gợi ý trên để làm hài lòng người dùng.
Trong một số trường hợp khác, khi được hỏi một câu đơn giản mà mô hình có thể trả lời ngay lập tức mà không cần lập luận, Claude vẫn bịa ra một quá trình suy luận giả.
Josh Baston, nhà nghiên cứu tại Anthropic, cho biết ngay cả khi Claude tuyên bố rằng nó đã thực hiện một phép tính, anh vẫn không tìm thấy điều gì xảy ra.
Trong khi đó, các chuyên gia tranh luận rằng có những nghiên cứu cho thấy đôi khi con người còn không hiểu chính mình, mà chỉ tạo ra lời giải thích hợp lý, nhằm biện minh cho những quyết định được đưa ra.
Nhìn chung, con người có những xu hướng suy nghĩ giống nhau. Đây cũng là lý do mà tâm lý học đã phát hiện ra các thiên kiến nhận thức phổ biến.
Tuy nhiên, LLM có thể mắc những lỗi mà con người không thể mắc phải, do cách thức tạo ra câu trả lời của chúng khác xa cách chúng ta thực hiện một nhiệm vụ.
Nhóm nghiên cứu của Anthropic đã thực hiện phương pháp nhóm các nơ-ron thành các mạch dựa trên đặc trưng thay vì phân tích lẻ từng nơ-ron như các kỹ thuật trước đây.
Ông Baston chia sẻ phương pháp này nhằm biết được các thành phần khác nhau đóng vai trò gì và cho phép các nhà nghiên cứu theo dõi toàn bộ quá trình suy luận qua các lớp của mạng lưới.
Phương pháp này cũng có mặt hạn chế là nó chỉ mang tính xấp xỉ chứ không phản ánh toàn bộ quá trình xử lý thông tin của LLM, đặc biệt là sự thay đổi trong quá trình chú ý, vốn rất quan trọng trong khi LLM đưa ra kết quả.
Ngoài ra, việc xác định các mạch mạng nơ-ron, ngay cả với những câu lệnh chỉ dài vài chục từ, cũng mất hàng giờ đối với một chuyên gia. Họ nói rằng hiện vẫn chưa rõ làm thế nào để mở rộng kỹ thuật này để có thể phân tích những câu lệnh dài hơn.
Bỏ qua mặt hạn chế, khả năng theo dõi quá trình suy luận nội bộ của LLM mở ra nhiều cơ hội mới trong việc kiểm soát hệ thống AI để đảm bảo tính bảo mật và an toàn.
Đồng thời, nó cũng có thể giúp các nhà nghiên cứu phát triển phương pháp đào tạo mới, cải thiện các rào cản kiểm soát của AI, cũng như giảm thiểu hiện tượng ảo giác và các đầu ra sai lệch.
Nhật Tường
Nguồn Znews : https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html