AI bị hoảng loạn khi tham gia thử nghiệm chơi game

7 giờ trướcBài gốc

Người máy phải đủ thông minh để phản ứng với độ khó khi chơi game

Trong một báo cáo gần đây, Google DeepMind cho biết Gemini 2.5 Pro thậm chí rơi vào trạng thái “hoảng loạn” khi Pokémon của nó sắp hết máu, khiến hiệu suất suy giảm rõ rệt về mặt lý luận.

Dùng chơi game để đánh giá hiệu suất AI

Việc đánh giá hiệu suất AI (hay còn gọi là AI benchmarking) từ lâu đã là một lĩnh vực gây tranh cãi, bởi nó thường thiếu bối cảnh để hiểu rõ năng lực thực sự của từng mô hình. Tuy nhiên, một số nhà nghiên cứu tin rằng việc quan sát cách AI chơi game có thể hữu ích (hoặc ít nhất là thú vị).

Trong vài tháng qua, hai lập trình viên độc lập, tức là không thuộc Google hay Anthropic, đã dựng hai kênh Twitch: “Gemini Plays Pokémon” và “Claude Plays Pokémon”. Hai kênh cho phép người xem theo dõi trực tiếp cảnh AI chơi một trò chơi điện tử dành cho trẻ em ra đời hơn 25 năm trước.

Mỗi luồng livestream đều hiển thị quá trình “lý luận” của AI – tức là bản dịch bằng ngôn ngữ tự nhiên về cách AI đánh giá tình huống và đưa ra hành động – giúp người xem hiểu rõ hơn cơ chế vận hành của các mô hình này.

Dù tiến bộ của các mô hình AI là đáng kể, chúng vẫn chưa thật sự giỏi chơi Pokémon. Gemini cần hàng trăm giờ để hoàn thành một trò chơi mà một đứa trẻ có thể xử lý nhanh hơn gấp nhiều lần.

AI cũng hoảng loạn khi không tìm ra đường đi

Nhưng điều thú vị không nằm ở thời gian hoàn tất, mà là ở cách AI phản ứng và hành xử trong quá trình chơi. Báo cáo cho biết: “Trong suốt quá trình chơi, Gemini 2.5 Pro gặp nhiều tình huống dẫn đến việc mô hình mô phỏng trạng thái hoảng loạn”.

Trạng thái “hoảng loạn” này có thể khiến AI suy giảm hiệu suất, ví dụ như đột ngột ngừng sử dụng các công cụ hỗ trợ vốn có trong nhiều phân đoạn chơi. Dù AI không có cảm xúc hay ý thức, hành vi của nó bắt chước cách con người ra quyết định kém hiệu quả khi chịu áp lực – một hiện tượng vừa kỳ thú, vừa có phần đáng lo. Báo cáo viết thêm: “Hành vi này xảy ra đủ nhiều để cộng đồng chat trên Twitch bắt đầu nhận ra mỗi khi nó tái diễn”.

Claude, mô hình của Anthropic, cũng thể hiện những hành vi kỳ lạ khi chu du vùng đất Kanto. Trong một lần bị kẹt tại hang Mt. Moon, Claude nhận thấy rằng khi tất cả Pokémon đều bị hạ gục, nhân vật sẽ ‘ngất xỉu’ và quay về Trung tâm Pokémon.

Claude từ đó giả định sai rằng nếu cố tình để toàn bộ Pokémon ngất, nó sẽ được dịch chuyển sang thị trấn kế tiếp. Nhưng thực tế, trò chơi sẽ đưa người chơi quay về Trung tâm Pokémon gần nhất đã từng ghé qua, chứ không phải nơi gần về mặt địa lý. Người xem không khỏi bàng hoàng khi chứng kiến AI “cố tình tự sát trong game” để thử đi đường tắt.

Một số điểm AI làm tốt hơn con người

Dù còn nhiều thiếu sót, Gemini cũng có lúc vượt trội hơn người chơi thật. Trong phiên bản 2.5 Pro, AI thể hiện khả năng giải đố chính xác đáng nể.

Với một ít trợ giúp từ con người, AI đã xây dựng được các công cụ tác vụ tự chủ (agentic tools), tức là các mô hình Gemini được tinh chỉnh riêng cho từng nhiệm vụ để giải các câu đố liên quan đến tảng đá và tìm đường đi tối ưu trong game.

Báo cáo cho biết: “Chỉ với một đoạn mô tả vật lý của tảng đá và quy trình kiểm tra đường đi hợp lệ, Gemini 2.5 Pro có thể giải đúng ngay lần đầu các câu đố phức tạp – vốn là bắt buộc để vượt qua Victory Road”.

Vì phần lớn các công cụ đó được Gemini tự xây dựng, Google cho rằng mô hình này có tiềm năng tạo ra công cụ mà không cần con người hỗ trợ. Ai biết được. Có lẽ sau này Gemini sẽ tự phát minh ra một module “đừng hoảng loạn” cho chính mình.

Claude chơi Pokémon Red

Anthropic đã giới thiệu dự án "Claude Plays Pokémon", nơi các phiên bản của Claude AI được thiết lập để chơi Pokémon Red.

Claude được huấn luyện để hiểu màn hình game (thông qua đầu vào đa phương thức, có thể là hình ảnh được mô tả hoặc xử lý) và đưa ra các quyết định trong game.

Các thử nghiệm cho thấy Claude có thể đưa ra các chiến lược hợp lý, giải quyết các câu đố, và tiến bộ trong game. Một số báo cáo cho thấy Claude 3.7 Sonnet đã thể hiện khả năng rất tốt trong việc duy trì sự tập trung và hoàn thành các mục tiêu mở trong game như thu thập vật phẩm, điều hướng đến khu vực nhất định và đánh bại các trùm game.

Gemini chơi Pokémon Blue

Google cũng đã thực hiện các thử nghiệm tương tự với Gemini, đặc biệt là Gemini 2.5 Pro, chơi Pokémon Blue.

Điểm đặc biệt của thử nghiệm Gemini là nó được cho là đã hoàn thành Pokémon Blue với ít sự can thiệp của nhà phát triển hơn so với các thử nghiệm trước đây của Claude.

Một số nguồn tin cho rằng Gemini 2.5 Pro đã "vượt trội đáng kể" so với Claude trong các thử nghiệm tương tự và đạt được thành tích tốt hơn với ít hành động hơn (tức là hiệu quả hơn). Gemini được mô tả là tự điều hướng phần lớn, mặc dù có thể có một phiên bản Gemini khác được dành riêng cho việc tìm đường.

Anh Tú

Nguồn Một Thế Giới : https://1thegioi.vn/ai-bi-hoang-loan-khi-tham-gia-thu-nghiem-choi-game-233877.html