AI tạo ảnh của Google giải được bài toán khó nhằn

một giờ trướcBài gốc

Google vừa ra mắt Nano Banana Pro, mô hình tạo và chỉnh sửa ảnh mới nhất. Đây là mô hình AI tiếp theo được công ty giới thiệu trong tuần này sau Gemini 3. Nano Banana Pro được phát triển dựa trên Gemini 3 Pro. Google nhấn mạnh đây là “mô hình chỉnh sửa ảnh tân tiến nhất” mà công ty từng ra mắt. Các cải tiến của mô hình xoay quanh khả năng chỉnh sửa ảnh, tạo chữ cái dễ đọc và duy trì nhất quán trong thiết kế.

Người dùng có thể trải nghiệm Nano Banana Pro trong ứng dụng Gemini (chọn chức năng Tạo hình ảnh > Tư duy). Tài khoản miễn phí được sử dụng mô hình với số lượt giới hạn, sau đó chuyển về phiên bản cũ.

Ứng dụng ghi chú NotebookLM cũng sẽ tích hợp Nano Banana Pro, bên cạnh các sản phẩm cho nhà phát triển, doanh nghiệp và nhà sáng tạo nội dung của Google.

Tại Mỹ, người dùng gói AI Pro và AI Ultra có thể trải nghiệm Nano Banana Pro trong chế độ AI của Google Search. Ngoài ra, mô hình mới cũng được tích hợp vào một số ứng dụng thiết kế phổ biến như Canva, Figma và Photoshop.

Google cho biết với khả năng lập luận nâng cao của Gemini 3, Nano Banana Pro hỗ trợ tạo ảnh minh họa với nội dung trực quan, font chữ dễ đọc hơn. Ví dụ, công nghệ này có thể chuyển văn bản công thức nấu ăn sang biểu đồ minh họa, hoặc trực quan hóa các thông tin thời gian thực như thời tiết hoặc thể thao.

Tạo văn bản là một trong những cải tiến được Google nhấn mạnh trên Nano Banana Pro. So với phiên bản trước, mô hình này có thể tạo văn bản chính xác, dễ đọc, hỗ trợ dịch sang nhiều ngôn ngữ. Người dùng thậm chí có thể tạo văn bản kèm hiệu ứng và bố cục đặc biệt, phù hợp dùng trong thiết kế bài viết, poster quảng cáo.

Nano Banana Pro cũng cải thiện tính nhất quán trong thiết kế. Theo Google, người dùng có thể cung cấp tối đa 14 hình ảnh khác nhau rồi yêu cầu mô hình sắp xếp theo yêu cầu, đồng thời giữ nguyên các đặc điểm của tối đa 5 ảnh. Công cụ vẫn giữ lại diện mạo, thần thái của bạn bè, gia đình và thú cưng bất kể thay đổi kiểu tóc hay trang phục.

Người dùng có thể yêu cầu sửa các chi tiết trong ảnh có sẵn, thay đổi góc chụp, tỷ lệ, chỉnh màu, vị trí lấy nét và kể cả ánh sáng, như thể đang chụp trực tiếp bằng máy ảnh.

Google nhấn mạnh hình ảnh tạo bởi Nano Banana được gắn nhãn SynthID ẩn để nhận diện nội dung AI. Trên phiên bản mới, Gemini cho phép tải ảnh và hỏi xem hình ảnh có được tạo bởi Google AI không. Hãng có kế hoạch mở rộng tính năng sang âm thanh và video trong tương lai. Bên cạnh SynthID, ảnh tạo bởi mô hình của Google vẫn có dấu mờ (watermark) khi dùng gói miễn phí hoặc Google AI Pro. Watermark sẽ được xóa cho thuê bao AI Ultra.

Từ khi ra mắt lần đầu vào tháng 8, Nano Banana thu hút sự quan tâm nhờ khả năng tạo ảnh thú cưng, con người và phong cảnh với độ chân thực cao. Hồi tháng 9, Josh Woodward, Phó chủ tịch Google Labs và Gemini, cho biết Nano Banana giúp ứng dụng Gemini thu hút thêm 13 triệu người dùng trong 4 ngày. Woodward cho biết Nano Banana Pro có khả năng hoạt động tốt hơn phiên bản gốc. Ông nhấn mạnh những đặc điểm như tạo infographic, slide thuyết trình và đảm bảo sự nhất quán giữa các hình ảnh.

Google đang tìm cách giành lợi thế trước OpenAI trong cuộc đua AI tạo sinh, vốn đã bùng nổ từ khi ChatGPT ra mắt năm 2022. Tuần trước, OpenAI công bố phiên bản GPT-5.1, tập trung cải thiện khả năng tương tác với người dùng. Trên App Store Mỹ, ChatGPT đang đứng đầu danh sách ứng dụng miễn phí, trong khi Gemini xếp thứ 2.

Khi ra mắt Gemini 3, Google công bố ứng dụng Gemini có hơn 650 triệu người dùng/tháng, và AI Overviews có 2 tỷ người dùng/tháng. Hồi tháng 10, CEO Sam Altman của OpenAI cho biết ChatGPT đạt 800 triệu người dùng/tuần. Nhiều người đăng ký các gói Gemini để tăng giới hạn sử dụng mô hình tiên tiến.