ChatGPT 5.2 Thinking của OpenAI đã trả lời đúng 97% câu hỏi. Ảnh: Nikkei
Cụ thể, ChatGPT 5.2 Thinking của OpenAI đã xếp hạng nhất, đạt điểm tuyệt đối ở 9 môn học, với điểm trung bình lên tới 96,9/100 trong tổng số 15 môn thi, vượt xa mức điểm trung bình của thí sinh dự thi.
Cuộc thử nghiệm được Nikkei phối hợp với LifePrompt, một startup AI của Nhật Bản tổ chức. Ban tổ chức đã đưa các mô hình AI mới nhất của những tập đoàn công nghệ lớn, trong đó có OpenAI và Google, tham gia làm bài thi tuyển sinh đại học – kỳ thi có tính cạnh tranh và độ khó cao tại Nhật Bản.
Kỳ thi được tổ chức trong hai ngày 17–18/1, bao gồm 15 môn học chính thuộc hệ thống thi tuyển sinh đại học quốc gia. Kết quả cho thấy, ChatGPT 5.2 Thinking đạt thành tích vượt trội, trong khi Gemini 3.0 Pro của Google đạt 91,4 điểm, xếp sau OpenAI.
Theo thống kê, kỳ thi tuyển sinh đại học của Nhật Bản bao gồm 21 môn học thuộc 7 lĩnh vực. Trong năm 2026, điểm trung bình dự kiến của thí sinh ở 15 môn phổ biến nhất chỉ vào khoảng 58,1 điểm, thấp hơn rất nhiều so với kết quả mà các mô hình AI đạt được.
Điều này cho thấy năng lực xử lý kiến thức học thuật của AI đã vượt xa mức trung bình của con người, đặc biệt trong các bài thi tiêu chuẩn hóa.
Trước đó, các phiên bản AI thế hệ cũ của OpenAI cũng từng tham gia thử nghiệm kỳ thi này. Điểm trung bình của AI đã tăng mạnh từ 66 điểm năm 2024 lên 91 điểm năm 2025, và tiếp tục đạt mức gần như tuyệt đối trong năm 2026, phản ánh tốc độ phát triển rất nhanh của công nghệ trí tuệ nhân tạo.
Phân tích kết quả cho thấy, các mô hình AI thế hệ mới đặc biệt vượt trội trong các môn toán học, vật lý, hóa học và sinh học. Tuy nhiên, AI lại đạt điểm thấp hơn ở các môn tiếng Nhật và địa lý.
Mặc dù AI có thể phân tích chính xác các hình học phức tạp trong đề thi toán, nhưng vẫn mắc lỗi ở những câu hỏi liên quan đến bản đồ thế giới, cho thấy hạn chế trong việc ghi nhớ và diễn giải các dữ liệu hình ảnh không đồng nhất, phức tạp.
Các chuyên gia nhận định, kết quả này không chỉ cho thấy sức mạnh ngày càng lớn của AI trong lĩnh vực học thuật, mà còn đặt ra nhiều câu hỏi quan trọng đối với phương pháp giảng dạy, đánh giá và tổ chức thi cử trong tương lai, khi AI ngày càng có khả năng vượt qua các bài kiểm tra vốn được thiết kế cho con người.
Quỳnh Vũ