Vào một ngày cuối tuần hồi giữa tháng 5, một cuộc họp kín của giới toán học đã diễn ra. 30 nhà toán học hàng đầu thế giới đã bí mật đến Berkeley, California, Mỹ, để tham dự một buổi đối đầu với một chatbot có năng lực "suy luận". Chatbot này được giao nhiệm vụ giải các bài toán do chính các nhà toán học soạn ra, nhằm kiểm tra năng lực giải toán của nó.
Sau 2 ngày liên tục tung ra những câu hỏi ở trình độ giáo sư, các nhà toán học ngỡ ngàng nhận ra chatbot này có thể giải được một số bài toán khó nhất từng được giải trong lịch sử.
“Tôi chứng kiến các đồng nghiệp nói thẳng rằng mô hình ngôn ngữ lớn này đang tiến gần đến tầm thiên tài toán học,” Ken Ono, giáo sư tại Đại học Virginia, đồng thời là người đứng đầu và giám khảo của buổi họp, chia sẻ với trang Scientific American.
Chatbot gây chú ý kể trên được vận hành dựa trên o4-mini, một mô hình ngôn ngữ lớn (LLM) được thiết kế để suy luận phức tạp. Đây là sản phẩm của công ty OpenAI, được huấn luyện để có thể thực hiện các bước lập luận tinh vi. Mô hình tương đương từ Google mang tên Gemini 2.5 Flash, cũng sở hữu năng lực tương tự.
Giống như các LLM của ChatGPT trước đây, o4-mini học cách dự đoán từ tiếp theo trong chuỗi văn bản. Tuy nhiên, khác biệt nằm ở chỗ o4-mini là phiên bản nhẹ hơn, linh hoạt hơn, được huấn luyện trên dữ liệu chuyên sâu và nhận được sự điều chỉnh sát sao từ con người — giúp nó đi sâu vào các vấn đề toán học, thứ mà các mô hình trước đây không thể với tới.
Để thách thức và đánh giá khả năng của o4-mini, OpenAI đã từng yêu cầu Epoch AI - một tổ chức phi lợi nhuận chuyên kiểm định các mô hình LLM - tạo ra 300 câu hỏi toán học chưa từng được công bố. Dù các LLM truyền thống có thể giải được nhiều bài toán phức tạp, nhưng khi được thử thách với những câu hỏi hoàn toàn mới, hầu hết chúng chỉ giải đúng chưa đến 2%. Điều này cho thấy chúng chưa thực sự có khả năng suy luận.
Trong dự án đánh giá mới, Epoch AI tuyển dụng tiến sĩ toán học trẻ tuổi Elliot Glazer làm người dẫn dắt. Dự án mới mang tên FrontierMath, được triển khai từ tháng 9/2024.
Dự án thu thập các câu hỏi mới theo 4 cấp độ khó, từ trình độ đại học, sau đại học, đến nghiên cứu chuyên sâu. Tháng 4/2025, Glazer nhận thấy o4-mini có thể giải khoảng 20% các bài toán. Vì thế, anh đã chuyển luôn sang cấp độ 4 - yêu cầu nó giải những bài toán mà ngay cả các nhà toán học chuyên sâu với trình độ rất cao cũng gặp khó khăn.
Những người tham gia buộc phải ký thỏa thuận bảo mật, chỉ được liên lạc qua ứng dụng mã hóa Signal, do việc sử dụng email có thể bị LLM quét và “học lỏm” nội dung, qua đó làm sai lệch dữ liệu đánh giá.
Mỗi bài toán mà o4-mini không thể giải sẽ mang về cho người ra đề 7.500 USD tiền thưởng.
Nhóm làm việc ban đầu triển khai chậm, nhưng ổn định, trong việc nghĩ ra câu hỏi. Tuy nhiên, Glazer quyết định tăng tốc bằng cách tổ chức cuộc gặp gỡ trực tiếp trong hai ngày 17–18/5. 30 nhà toán học tham dự được chia thành các nhóm 6 người, cùng nhau thi đấu — không phải để giải toán, mà để nghĩ ra những bài toán mà AI không thể vượt qua.
Đến tối thứ 17/5, Ken Ono bắt đầu cảm thấy bực với chatbot, vốn thể hiện trình độ toán học vượt xa mong đợi, khiến nhóm gặp khó khăn trong việc "gài bẫy" nó. “Tôi nghĩ ra một bài toán mà các chuyên gia trong ngành sẽ công nhận là một vấn đề mở trong lý thuyết số - một bài toán phù hợp với trình độ tiến sĩ,” ông kể lại.
Kết quả là khi hỏi o4-mini, ông đã sững sờ chứng kiến chatbot lần lượt phân tích, suy luận và đưa ra lời giải đúng chỉ trong 10 phút. Cụ thể, trong hai phút đầu, nó tìm hiểu và nắm bắt toàn bộ tài liệu liên quan. Sau đó, nó tự đề xuất thử nghiệm với phiên bản đơn giản hơn của bài toán để học cách tiếp cận.
5 phút sau, chatbot đưa ra lời giải chính xác, kèm theo giọng điệu đầy tự tin — thậm chí có phần... kiêu ngạo. “Nó bắt đầu tỏ ra láu cá,” Ono kể, “Và nó còn viết thêm: ‘Không cần trích dẫn vì con số bí ẩn đã được tôi tính ra!’”
Thất bại trước AI, trong sáng sớm 18/5, Ono lập tức gửi tin nhắn báo động đến nhóm qua Signal. “Tôi hoàn toàn không chuẩn bị tinh thần để đối phó với một mô hình như thế này,” ông nói. “Tôi chưa từng thấy kiểu suy luận như vậy ở một mô hình máy tính. Nó suy nghĩ như một nhà khoa học thực thụ suy nghĩ. Và điều đó thật đáng sợ.”
Dù cuối cùng các nhà toán học cũng thành công khi tìm ra được 10 câu hỏi khiến o4-mini “bó tay”, họ vẫn không giấu được sự choáng váng trước tốc độ phát triển của AI chỉ trong một năm.
Ono so sánh trải nghiệm làm việc với o4-mini giống như đang cộng tác với một đồng nghiệp cực kỳ giỏi. Còn Yang Hui He, nhà toán học tại Viện Khoa học Toán học London và là người tiên phong trong việc ứng dụng AI vào toán học, nhận xét: “Đây là những gì mà một nghiên cứu sinh rất, rất giỏi có thể làm — thậm chí còn hơn thế.”
Và cần lưu ý rằng AI làm nhanh hơn nhiều so với con người. Trong khi con người mất vài tuần hoặc vài tháng để giải, o4-mini chỉ cần vài phút.
Sự phấn khích trong cuộc đấu trí với o4-mini đi kèm không ít lo ngại. Ono và He đều cảnh báo rằng khả năng của o4-mini có thể khiến người ta quá tin tưởng vào nó. “Ta có bằng chứng bằng quy nạp, bằng phản chứng, và giờ là bằng chứng bằng... áp đảo,” He nói. “Nếu bạn phát biểu một điều gì đó với đủ sự tự tin, người khác sẽ cảm thấy lo sợ. Tôi nghĩ o4-mini đã thành thạo loại bằng chứng này: nó nói gì cũng rất chắc chắn.”
Khi buổi gặp gỡ khép lại, các nhà toán học bắt đầu suy nghĩ về tương lai của nghề toán học. Họ bàn đến khả năng xuất hiện “cấp độ thứ năm” — những câu hỏi mà ngay cả các nhà toán học giỏi nhất thế giới cũng không thể giải. Nếu AI đạt đến ngưỡng đó, vai trò của nhà toán học sẽ thay đổi mạnh mẽ: có thể khi ấy, họ sẽ trở thành người đặt câu hỏi, tương tác và hướng dẫn các AI suy luận để khám phá các chân lý toán học mới — tương tự như cách một giáo sư làm việc với nghiên cứu sinh.
“Suốt thời gian qua tôi vẫn nói với đồng nghiệp rằng sẽ là sai lầm nghiêm trọng nếu cho rằng trí tuệ nhân tạo tổng quát sẽ không bao giờ xuất hiện, rằng nó chỉ là một cái máy tính,” Ono nói. “Tôi không muốn làm mọi người hoảng loạn, nhưng theo một số phương diện, các mô hình ngôn ngữ lớn này đã bắt đầu vượt qua phần lớn nghiên cứu sinh giỏi nhất thế giới rồi.”
Theo Vietnam+ (TTXVN)