Google vừa ra mắt mô hình Gemini 3, tập trung cải thiện viết mã, xử lý email và phân tích tài liệu. Mô hình này cũng sở hữu khả năng lập luận tốt hơn, hiểu bối cảnh và kết hợp đồ họa (sơ đồ, ảnh minh họa...) khi trả lời một số câu hỏi.
Thông báo của Google nhấn mạnh Gemini 3 sẽ xuất hiện trong ứng dụng Gemini, chế độ AI trên Google Search cũng như nền tảng lập trình mới, mang tên Google Antigravity.
"Thông minh nhất từ Google"
Từ khi xuất hiện cách đây gần 2 năm, Google liên tục mở rộng Gemini đến nhiều đối tượng khác nhau. Hãng nhấn mạnh tính năng AI Overviews hiện có 2 tỷ người dùng/tháng, ứng dụng Gemini đạt 650 triệu người dùng/tháng, hơn 70% khách hàng đám mây sử dụng AI và 13 triệu lập trình viên phát triển sản phẩm từ mô hình AI tạo sinh của Google.
Lần đầu tiên Google cho phép người dùng truy cập Gemini 3 Pro trong ứng dụng Gemini từ ngày đầu, khẳng định đây là "mô hình thông minh nhất của công ty". Hãng cũng triển khai Gemini 3 Pro thông qua AI Mode cho người dùng trả phí.
Tulsee Doshi, Giám đốc cấp cao kiêm trưởng bộ phận sản phẩm Google DeepMind, cho biết Gemini 3 sẽ đưa công ty đến gần mục tiêu giúp thông tin “có thể truy cập rộng rãi và hữu ích”, tiếp tục nâng cấp công cụ tìm kiếm của Google.
Google nhấn mạnh khả năng xử lý đa phương thức (multimodal) của Gemini 3 Pro, xoay quanh việc xử lý văn bản, hình ảnh và âm thanh cùng lúc. Ví dụ, mô hình có thể đọc ảnh chụp công thức nấu ăn rồi chuyển thành sách, tạo thẻ ghi chú tương tác dựa trên video bài giảng.
Thang đo thực hiện bởi Google cho Gemini 3 Pro trên LMArena. Ảnh: Google.
Thông báo từ Google cũng nhấn mạnh hiệu quả của Gemini 3 Pro trong các thang đo chuẩn (benchmark). Ví dụ, mô hình này đạt 1.501 điểm, dẫn đầu bảng xếp hạng LMArena. Năng lực lập luận của Gemini 3 Pro đạt trình độ tiến sĩ với điểm 37,5% trên bài thi Humanity’s Last Exam, và 91,9% với bài thi GPQA Diamond.
Trên thang đo xoay quanh các bài toán (MathArena Apex), Gemini 3 Pro đạt 23,4%, cao nhất hiện nay trong các mô hình ngôn ngữ lớn (LLM).
Về khả năng lập luận đa phương thức, Google cho biết Gemini 3 Pro đạt 81% trên thang đo MMMU-Pro, và 87,6% với Video-MMMU. Mô hình cũng đạt 72,1% trên nền tảng kiểm tra độ chính xác SimpleQA Verified.
“Điều này cho thấy Gemini 3 Pro có khả năng giải quyết các vấn đề phức tạp trong hàng loạt lĩnh vực từ khoa học đến toán học với độ tin cậy cao”, Google nhấn mạnh.
Với phiên bản lập luận sâu Gemini 3 Deep Think, các điểm số trên bài thi Humanity’s Last Exam và GPQA Diamond thậm chí cao hơn Gemini 3 Pro, lần lượt 41% và 93,8%. Mô hình cũng đạt 45,1% trên ARC-AGI, thang đo về AI tổng quát.
Gemini 3 làm được gì?
Các cải tiến trên Gemini 3 sẽ xuất hiện trên nhiều sản phẩm của Google. Tính năng Dynamic View đang thử nghiệm trong Gemini tạo ra trải nghiệm tương tác cho một số truy vấn, chẳng hạn như tạp chí với ảnh minh họa, thông tin ngắn gọn hoặc giao diện tùy chỉnh theo yêu cầu.
“Gemini 3 thậm chí có thể phân tích video trận pickleball của bạn, xác định những điểm cần cải thiện và lên kế hoạch luyện tập để nâng cao kỹ thuật tổng thể của bạn”, Google nhấn mạnh.
Khả năng mã hóa nâng cao của Gemini 3 Pro giúp tạo ra hình ảnh đẹp hơn. Ảnh: Google.
AI Mode trên Google Search cũng có thể tạo các yếu tố trực quan, như hình ảnh, bảng biểu, video mô phỏng dựa trên truy vấn thông qua chế độ Generative UI. Người dùng có thể tương tác hoặc hỏi sâu thêm về các dữ liệu.
Theo Google, AI Mode có thể thực hiện nhiều tìm kiếm hơn nhờ bản nâng cấp của “query fan-out”, kỹ thuật chia câu hỏi thành các phần nhỏ để hiểu rõ ý định câu hỏi và “tìm các nội dung mới mà trước đây có thể bỏ sót”.
Google không ngại nhắc đến đối thủ khi mô tả Gemini 3 Pro “thay thế những câu nói tâng bốc sáo rỗng bằng những góc nhìn giá trị và chân thực”.
“Nó không chỉ trả lời điều bạn muốn nghe, mà còn đưa ra những điều bạn thực sự cần nghe”, đại diện Google nói thêm.
Tính năng Dynamic View trong Gemini tạo ra trải nghiệm tương tác trực quan cho một số truy vấn. Ảnh: Google.
Gemini 3 Pro cũng hỗ trợ lập trình viên tốt hơn trong những tác vụ lập trình tác nhân (agentic coding) và “lập trình theo cảm tính” (vibe coding). Các công cụ như Google AI Studio, Vertex AI hay Gemini CLI đã hỗ trợ Gemini 3, bên cạnh nền tảng Antigravity hoàn toàn mới, tập trung vào agentic coding và tự động hóa.
Nói về tác nhân (agent), Google cho biết Gemini 3 có thể hỗ trợ tốt hơn. Mô hình có thể thay mặt người dùng thực hiện các quy trình phức tạp như phân loại và sắp xếp email, tìm kiếm thông tin và đặt vé du lịch.
Hiện tại, người dùng Google AI Ultra có thể trải nghiệm những tính năng tác nhân trong ứng dụng Gemini với chế độ Gemini Agent.
Phả hơi nóng vào đối thủ
Mô hình mới từ Google được xem là bài toán khó với đối thủ. Nguồn tin của New York Times nhấn mạnh nội bộ OpenAI và Anthropic đều lo ngại bị vượt mặt nếu Gemini 3 vượt trội trong các tác vụ như viết mã hay tạo hình ảnh.
“Do quy mô, không gian của Google cùng lợi thế tiên phong trong lĩnh vực tìm kiếm, Gemini có thể chiếm lĩnh thị phần và khiến OpenAI cùng các công ty khác tụt hậu”, Mike O’Rourke, nhà phân tích tại JonesTrading, nhận định.
Ông nói thêm rằng sự dịch chuyển sang Gemini có thể lan rộng khắp thị trường, đặt dấu hỏi cho Oracle và Microsoft, những công ty nhận hàng tỷ USD từ OpenAI để cung cấp hạ tầng điện toán đám mây.
Chế độ AI của Google Search có thể tạo hình ảnh mô phỏng dựa trên truy vấn. Ảnh: Google.
Sự bùng nổ của AI cũng khiến giới công nghệ đối mặt câu hỏi về cân bằng chi phí và cơ hội kinh doanh. Các hệ thống AI ngày nay chủ yếu dùng để truy vấn tìm kiếm trên Internet, giúp tự động hóa lập trình.
Theo McKinsey & Company, công nghệ trên hoạt động trong các trung tâm dữ liệu chứa đầy siêu máy tính đắt tiền, ngành công nghiệp dự kiến chi 7.000 tỷ USD cho các cơ sở này đến năm 2030. Các nhà đầu tư Phố Wall lo ngại doanh thu của Anthropic, OpenAI, Microsoft và Google liệu có đủ bù đắp chi phí không.
“Chúng ta cần các trường hợp sử dụng tiềm năng, chất lượng cao để tạo ra doanh thu. Chúng ta vẫn chưa đạt đến điều đó”, nhà phân tích Ben Bajarin từ Creative Strategies nhấn mạnh.
Điểm số của Gemini 3 Pro trên thang đo WebDev Arena do Google thực hiện. Ảnh: Google.
Koray Kavukcuoglu, Giám đốc Công nghệ bộ phận AI của Google, cho biết độ chính xác của Gemini sẽ cải thiện khi công ty triển khai trên Google Search. Khi kết hợp với bộ máy tìm kiếm, mô hình có thể lập tức truy xuất và xác thực thông tin. Tất nhiên, điều này chỉ hiệu quả ở mức độ nhất định.
“Nếu mọi người tìm đến Google để khỏi phải nhấn các liên kết màu xanh, điều đó hiện chưa đủ tốt”, Manos Koukoumidis, đồng sáng lập Oumi, startup hỗ trợ doanh nghiệp tự động hóa và triển khai giải pháp AI, nhận định.
Để tăng thêm người dùng, Google cho biết sẽ cung cấp gói AI Pro miễn phí trong một năm cho sinh viên đại học tại Mỹ. Hãng liệt kê hơn 20 đối tác sử dụng Gemini 3 để phân tích dữ liệu, ghi chép các cuộc họp đa ngôn ngữ.
Theo Bajarin, những tính năng mới có thể giúp Google cạnh tranh với Microsoft, Amazon trên thị trường điện toán đám mây. Hồi tháng 10, Google công bố doanh thu mảng đám mây quý gần nhất đạt 15 tỷ USD, chủ yếu đến từ nhu cầu AI.
Phúc Thịnh