ByteDance: Seedream 4.0 vượt trội Nano Banana của Google về tạo và chỉnh sửa ảnh

ByteDance: Seedream 4.0 vượt trội Nano Banana của Google về tạo và chỉnh sửa ảnh
9 giờ trướcBài gốc
ByteDance, công ty mẹ TikTok, vừa giới thiệu mô hình AI (trí tuệ nhân tạo) tạo và chỉnh sửa ảnh mới mang tên Seedream 4.0, mà họ tuyên bố vượt trội Nano Banana ở một số chỉ số chính.
Bộ phận Seed, đơn vị giám sát các nỗ lực phát triển AI của ByteDance, cho biết Seedream 4.0 có khả năng chỉnh sửa ảnh mạnh mẽ, đặt nó vào vị thế cạnh tranh trực tiếp với Nano Banana, tên chính thức là Gemini 2.5 Flash Image.
Kể từ khi ra mắt vào cuối tháng 8, Nano Banana nhận được nhiều lời khen ngợi nhờ tính nhất quán và độ chính xác trong khả năng chỉnh sửa ảnh, vốn là thách thức với các mô hình dạng này cho đến nay.
Hôm 10.9, ByteDance tuyên bố Seedream 4.0 vượt trội Nano Banana trong tạo và chỉnh sửa ảnh trên thước đo đánh giá nội bộ của họ là MagicBench, với hiệu suất mạnh mẽ hơn về độ bám sát gợi ý, hiểu đúng/làm đúng và tính thẩm mỹ từ câu lệnh. Tuy nhiên, những kết quả này chưa được công bố trong một báo cáo kỹ thuật chính thức.
Seedream 4 tạo ra ảnh này từ câu lệnh: 'Biến phà Star Ferry thành phi thuyền xuyên qua một lỗ sâu trong không gian'. Star Ferry là tên hãng phà nổi tiếng ở Hồng Kông, Trung Quốc
Nano Banana đã tạo ra ảnh này từ câu lệnh: 'Biến phà Star Ferry thành phi thuyền xuyên qua một lỗ sâu trong không gian'
Seedream 4.0 đạt được bước tiến đáng kể
Theo Artificial Analysis - công ty đánh giá mô hình AI hàng đầu có trụ sở ở Mỹ, Seedream 4.0 thể hiện "bước tiến đáng kể" so với các công cụ AI trước đây của ByteDance. Cụ thể hơn, Seedream 4.0 kết hợp khả năng tạo ảnh từ văn bản của Seedream 3.0 với khả năng chỉnh sửa ảnh từ SeedEdit 3.0 mà vẫn giữ nguyên mức giá cũ là 30 USD cho mỗi 1.000 lượt tạo ảnh.
Trên bảng xếp hạng của Artificial Analysis, Nano Banana hiện đứng đầu cả hai hạng mục tạo hình ảnh từ văn bản và chỉnh sửa ảnh, còn Seedream 4.0 vẫn chưa được đánh giá. Seedream 3.0 hiện xếp thứ 5 về tạo ảnh từ văn bản và thứ 6 về chỉnh sửa ảnh trên bảng xếp hạng này.
So với các mô hình AI trước, Seedream 4.0 có kiến trúc mới giúp tăng tốc độ xử lý hình ảnh thô lên hơn 10 lần, nên nhanh hơn nhiều để sử dụng, theo ByteDance (gã khổng lồ công nghệ có trụ sở tại thủ đô Bắc Kinh).
Những phản hồi trực tuyến rất tích cực, với người dùng ca ngợi độ chính xác trong chức năng chỉnh sửa ảnh của Seedream 4.0, cho phép thực hiện các thay đổi nhanh chóng với ảnh thông qua các câu lệnh văn bản.
Seedream 4.0 đã được cung cấp cho người dùng ở Trung Quốc trên các ứng dụng AI của ByteDance là Jimeng và Doubao, cũng như cho các khách hàng doanh nghiệp thông qua dịch vụ đám mây Volcano Engine của hãng.
Trên Fal.ai - nền tảng lưu trữ nội dung đa phương tiện sáng tạo toàn cầu, Seedream 4.0 có giá 0,03 USD cho mỗi ảnh được tạo, trong khi Nano Banana có giá 0,039 USD.
Người Trung Quốc nhanh chóng đón nhận các mô hình tạo hình ảnh và video bằng AI. Lĩnh vực này đang chứng kiến sự cạnh tranh gay gắt giữa các hãng lớn như ByteDance, công ty vận hành ứng dụng video ngắn Kuaishou Technology và gã khổng lồ game Tencent Holdings.
Ngày càng xuất hiện nhiều sản phẩm mới gần đây với mức giá cạnh tranh hơn, gồm cả công cụ tạo video Vidu - được phát triển chung bởi Đại học Thanh Hoa và công ty khởi nghiệp Shengshu AI có trụ sở tại Bắc Kinh.
Hôm 10.9, các nhà phát triển của Vidu đã ra mắt chức năng mới trên toàn cầu là tham chiếu đến hình ảnh, tạo ra ảnh dựa trên sự kết hợp của tối đa 7 ảnh tham chiếu, với giá 0,62 nhân dân tệ (0,09 USD) cho mỗi ảnh. Nano Banana hiện cho phép sử dụng tối đa 9 ảnh tham chiếu.
Chính quyền Trung Quốc đã thể hiện sự ủng hộ với nội dung do AI tạo bằng cách sẽ công nhận bản quyền của chúng vào cuối năm 2023, nhưng gần đây cũng đưa ra quy định bắt buộc gắn nhãn cho các nội dung đó.
Tham chiếu đến hình ảnh là dùng ảnh gốc làm mẫu để hướng dẫn AI tạo ảnh mới. Thay vì chỉ nhập câu lệnh (yêu cầu) bằng văn bản, người dùng có thể tải lên một hoặc nhiều ảnh gốc để AI dùng làm tài liệu tham chiếu. Dựa vào đó, AI sẽ tạo ra ảnh mới có phong cách, bố cục hoặc đặc điểm tương tự ảnh được tham chiếu, nhưng vẫn có thể thay đổi theo ý muốn người dùng.
Chẳng hạn, bạn đưa cho AI một bức ảnh chân dung và thêm lệnh: “Biến thành phong cách anime”. AI sẽ dùng ảnh gốc làm tham chiếu để giữ lại khuôn mặt, đặc điểm chính, nhưng chuyển đổi thành phong cách anime.
Nếu bạn đưa nhiều ảnh (ví dụ tối đa 7 hay 9 ảnh như Seedream 4.0 và Nano Banana cho phép), AI có thể kết hợp các yếu tố từ tất cả ảnh tham chiếu để tạo ra ảnh mới.
Lý do Nano Banana đứng đầu nhiều bảng xếp hạng
Không riêng Artificial Analysis, Nano Banana đang là mô hình AI tạo và chỉnh sửa ảnh đứng đầu nhiều bảng xếp hạng, gồm cả LMArena.
Google cho biết thế mạnh đặc biệt của Nano Banana là giữ nguyên được hình dáng, diện mạo hay đặc điểm nhận dạng của một người hoặc động vật qua nhiều bức ảnh khác nhau. Nói cách khác, khi bạn yêu cầu Nano Banana thực hiện các chỉnh sửa hoặc tạo ra nhiều phiên bản khác nhau của một ảnh (thay đổi trang phục, bối cảnh hoặc thêm phụ kiện), mô hình AI này có khả năng duy trì đặc điểm khuôn mặt và hình dáng tổng thể của chủ thể (người hoặc động vật) một cách nhất quán, không làm biến dạng hay thay đổi nhận dạng ban đầu.
Theo những phản hồi đến nay, Google khẳng định người dùng thích Nano Banana hơn sản phẩm OpenAI và các đối thủ khác, dựa trên điểm Elo - phương pháp tính toán mức độ khéo léo tương đối của các mô hình AI tạo sinh.
Trang Insider đã thử nghiệm Nano Banana trong vài ngày và nhận thấy mô hình chỉnh sửa ảnh của Google nhìn chung tốt hơn các công cụ khác. Dù không hoàn hảo, đôi khi gặp khó khi ghép hai khuôn mặt khác nhau, Nano Banana đặc biệt mạnh trong việc thực hiện các chỉnh sửa nhỏ cho ảnh hiện có.
Trong ví dụ dưới đây, trang Insider yêu cầu Nano Banana thêm kính cho người đàn ông này và đổi màu áo phông sang màu đỏ. Dù nhiều mô hình AI khác làm đúng cả kính lẫn màu sắc, chỉ Nano Banana giữ nguyên được hoa văn sọc trên áo và tạo ra một trong những kết quả sắc nét nhất.
Ảnh phóng viên Hugh Langley của Insider được chỉnh sửa bo· Nano Banana
Nano Banana có thể là mối đe dọa với các công cụ chỉnh sửa ảnh hiện có, đặc biệt là Adobe Photoshop.
Trên bài đăng trên blog của mình, Google tự tin gọi Nano Banana là mô hình chỉnh sửa ảnh được đánh giá cao nhất trên thế giới.
9 tính năng nổi bật của Nano Banana
1. Tính nhất quán nhân vật
Duy trì đặc điểm nhận diện của người, vật hoặc đối tượng qua nhiều lần chỉnh sửa khác nhau, giúp ảnh cuối cùng vẫn giữ được bản sắc ban đầu dù đã thay đổi nhiều chi tiết.
2. Chỉnh sửa theo lệnh tự nhiên
Cho phép thay đổi các chi tiết trong ảnh chỉ bằng ngôn ngữ tự nhiên, chẳng hạn thay nền, sửa tư thế, loại bỏ chi tiết không mong muốn, làm mờ hậu cảnh, thay màu ảnh đen trắng... bằng một câu lệnh đơn giản.
3. Hỗ trợ chỉnh sửa đa bước
Cho phép bạn tiếp tục chỉnh sửa ảnh từng bước, ví dụ bắt đầu với một phòng trống, sau đó yêu cầu vẽ tường mới, thêm kệ sách, rồi thay đổi màu sắc... trong khi vẫn giữ bố cục chính.
4. Kỹ thuật kết hợp nhiều ảnh
Hợp nhất nhiều ảnh đầu vào vào cùng cảnh mới chỉ bằng một lệnh. Ví dụ đưa hai ảnh riêng biệt thành một hình chụp chung, phối các đồ vật vào môi trường mới.
5. Hiểu ngữ cảnh và kiến thức thế giới
Khả năng hiểu và xử lý các hướng dẫn phức tạp, chẳng hạn đọc sơ đồ vẽ tay, trả lời câu hỏi thực tế hoặc thực hiện chỉnh sửa theo logic thế giới thật.
6. Áp dụng phong cách từ ảnh này sang ảnh khác
Ví dụ lấy màu, kết cấu hoặc phong cách của một bông hoa và áp dụng lên đôi ủng hoặc trang phục, tạo ra hiệu ứng sáng tạo liền mạch.
7. Tốc độ xử lý nhanh chóng và hiệu quả
Thời gian tạo và chỉnh sửa hình ảnh rất nhanh, chỉ trong vài giây hoặc dưới 30 giây, nhanh hơn nhiều so với các công cụ chỉnh sửa truyền thống.
8. Đánh dấu bản quyền tự động
Mỗi hình ảnh được chỉnh sửa hoặc tạo ra sẽ mang cả dấu hiệu AI dễ nhìn thấy, lẫn dấu watermark kỹ thuật số ẩn (SynthID) để xác lập nguồn gốc và hạn chế lạm dụng.
9. Triển khai rộng rãi trên nền tảng Google
Nano Banana đã được tích hợp trong ứng dụng Gemini, đồng thời khả dụng qua Gemini API, Google AI Studio và Vertex AI cho cả người dùng cá nhân lẫn doanh nghiệp.
Gemini API là giao diện lập trình ứng dụng (API) để truy cập trực tiếp các mô hình Gemini của Google, gồm cả Nano Banana.
Google AI Studio là một môi trường làm việc trực tuyến của Google, dành cho những ai muốn thử nghiệm và xây dựng ứng dụng AI nhanh chóng mà không cần viết nhiều mã.
Vertex AI là nền tảng AI doanh nghiệp trên dịch vụ đám mây Google Cloud.
Sơn Vân
Nguồn Một Thế Giới : https://1thegioi.vn/bytedance-seedream-4-0-vuot-troi-nano-banana-cua-google-ve-tao-va-chinh-sua-anh-237374.html