Các nhà nghiên cứu từ CAS và Đại học Công nghệ Nam Trung Quốc đã sử dụng các thí nghiệm để nghiên cứu mối quan hệ giữa các biểu diễn khái niệm đối tượng trong LLM và nhận thức của con người. Ảnh: Shutterstock.
Các nhà khoa học Trung Quốc lần đầu tiên phát hiện bằng chứng cho thấy các mô hình ngôn ngữ lớn (LLM) có thể tự phát triển một hệ thống tư duy tương tự con người, giúp hiểu và phân loại các đối tượng trong thế giới tự nhiên – một trong những trụ cột nền tảng của nhận thức con người.
Phát hiện này bổ sung thêm bằng chứng quan trọng trong cuộc tranh luận toàn cầu về năng lực nhận thức của trí tuệ nhân tạo (AI), cho thấy các hệ thống máy móc có thể phản ánh những yếu tố cốt lõi trong tư duy của con người là điều hoàn toàn khả thi.
“Hiểu được cách con người khái niệm hóa và phân loại các đối tượng tự nhiên mang lại những hiểu biết quan trọng về tri giác và nhận thức”, nhóm nghiên cứu viết trong một bài báo đăng trong tuần trên Nature Machine Intelligence, tạp chí khoa học uy tín quốc tế. “Hệ thống ngôn ngữ lớn ra đời đặt ra một câu hỏi then chốt: Liệu những mô hình này có thể tự phát triển khả năng biểu đạt khái niệm đối tượng giống con người từ dữ liệu ngôn ngữ và dữ liệu đa phương tiện?”.
LLM là các mô hình AI được huấn luyện trên khối lượng lớn dữ liệu văn bản – và trong trường hợp của các mô hình đa phương thức (MLLM), còn được huấn luyện thêm bằng dữ liệu hình ảnh và âm thanh – để xử lý nhiều tác vụ khác nhau.
Nhờ được tiếp xúc với dữ liệu cả về ngôn ngữ và hình ảnh, các mô hình như ChatGPT của OpenAI hay Gemini của Google thể hiện khả năng vượt trội trong lập luận, truyền đạt khái niệm, nhận diện đối tượng và phân loại thông tin.
Tuy vậy, các nghiên cứu trước đây chỉ ra rằng các mô hình AI hiện tại vẫn gặp khó khăn khi xử lý những nhiệm vụ yêu cầu năng lực tư duy sâu hơn.
Một nền tảng cơ bản của nhận thức con người là nhận thức về đối tượng – tức khả năng nhìn nhận những đối tượng khác nhau và phân loại chúng vào các nhóm khái niệm, dựa trên so sánh giữa chúng. Khi con người nhìn thấy một con chó hay một quả táo, họ không chỉ nhận diện đặc điểm vật lý, mà còn hiểu được ý nghĩa, chức năng và giá trị cảm xúc của chúng.
Tiềm năng nhận thức của các hệ thống học sâu, đặc biệt là khả năng tự nhiên học cách biểu đạt khái niệm đối tượng giống như con người mà không cần huấn luyện chuyên biệt theo nhiệm vụ, từ lâu đã là chủ đề nghiên cứu và tranh cãi.
“AI hiện nay có thể phân biệt ảnh mèo và chó, nhưng sự khác biệt giữa khả năng ‘nhận diện’ này với khả năng ‘hiểu’ thực sự như con người vẫn chưa được làm rõ”, Giáo sư He Huiguang thuộc Viện Tự động hóa, Viện Hàn lâm Khoa học Trung Quốc (CAS), phát biểu trong thông cáo báo chí trong tuần này.
Để tìm hiểu mối liên hệ giữa biểu đạt khái niệm đối tượng trong LLM và nhận thức con người, nhóm nghiên cứu từ Viện CAS và Đại học Công nghệ Hoa Nam đã sử dụng các phương pháp thí nghiệm hành vi, mô hình tính toán và phân tích hình ảnh thần kinh (neuroimaging).
Họ bắt đầu bằng các bài kiểm tra “chọn đối tượng khác biệt” (triplet odd-one-out), trong đó con người hoặc mô hình AI được cung cấp ba đối tượng và yêu cầu chọn ra đối tượng không phù hợp. Nhóm sử dụng ChatGPT-3.5 để thực hiện nhiệm vụ bằng mô tả văn bản, và Gemini Pro Vision 1.0 để thực hiện bằng hình ảnh.
Tổng cộng, họ thu thập được 4,7 triệu phản hồi từ các mô hình AI, từ đó dựng nên cấu trúc tương đồng giữa 1.854 đối tượng thực tế trong thế giới tự nhiên – bao gồm động vật, thực vật, thực phẩm, đồ nội thất, quần áo và phương tiện giao thông.
Thông qua một phương pháp đo lường vốn dùng cho con người, nhóm xác định được 66 chiều khái niệm riêng biệt chi phối các phản hồi về mức độ tương đồng của LLM, qua đó khái quát hóa cách các mô hình này “sắp xếp thế giới vật thể”.
Các chiều này có thể liên quan đến các danh mục như “liên quan đến thực phẩm”, nhưng cũng phản ánh các đặc tính cảm quan như nhiệt độ, kết cấu, mức độ phù hợp cho người lớn hay trẻ em, thành phần vật lý hoặc môi trường tồn tại (ví dụ: dưới nước hay trên cạn).
Khi so sánh với các đánh giá tương đồng do con người thực hiện trên cùng bộ đối tượng và chiều khái niệm, nhóm nghiên cứu phát hiện ra sự tương đồng đáng kể giữa mô hình AI và nhận thức con người, đặc biệt trong việc hình thành các danh mục ngữ nghĩa (semantic categories).
MLLM cho thấy mức độ trùng khớp cao hơn so với LLM, bởi vì bản chất ngôn ngữ thuần túy của LLM khiến nó thiếu các chiều liên quan đến yếu tố thị giác như hình dạng hoặc không gian.
“Phân tích sâu hơn cho thấy sự trùng khớp rõ rệt giữa vector biểu diễn của mô hình và mẫu hoạt động thần kinh trong não, đặc biệt là vùng hồi hải mã (parahippocampal area), vốn liên quan đến việc mã hóa và nhận diện các cảnh vật trong môi trường”, nhóm nghiên cứu cho biết.
Điều này cho thấy các chiều nhận thức mà MLLM phát triển có thể đến từ các quá trình xử lý tương đồng với não người khi tiếp nhận và hiểu đối tượng.
“Đây là bằng chứng thuyết phục cho thấy cách mà các mô hình ngôn ngữ lớn biểu diễn đối tượng, tuy không giống hệt như con người, nhưng chia sẻ những điểm tương đồng nền tảng phản ánh bản chất của tri thức khái niệm con người”, nhóm nghiên cứu nhấn mạnh.
Những phát hiện này có thể mở đường cho việc phát triển giao diện người – máy thông minh hơn, cũng như các hệ thống nhận thức nhân tạo có tư duy giống người hơn, ví dụ như robot thông minh trong tương lai.
Huyền Chi