Whisk sử dụng AI để kết hợp chủ thể, bối cảnh và phong cách của bức ảnh được tải lên, từ đó tạo ra một hình ảnh mới lạ và độc đáo hơn.
Whisk được Google mô tả là một "công cụ sáng tạo", giúp người dùng nhanh chóng tạo ra những ý tưởng hình ảnh mới mà không yêu cầu kỹ năng chỉnh sửa ảnh chuyên nghiệp. Theo Google, công cụ này không phải là một trình chỉnh sửa hình ảnh truyền thống, mà là một công cụ AI thú vị nhằm khơi dậy sự sáng tạo và khám phá nhanh chóng.
Khi người dùng tải lên một bức ảnh, Whisk sẽ sử dụng kết hợp dịch vụ AI của Google, Gemini, với công nghệ Imagen 3 – một công cụ tạo hình ảnh từ văn bản mà Google mua lại từ DeepMind.
Gemini sẽ phân tích bức ảnh và tạo ra một chú thích, sau đó Imagen 3 sẽ kết hợp các yếu tố của bức ảnh đó theo cách sáng tạo, giữ lại "bản chất" của chủ thể thay vì sao chép chính xác.
Giao diện công cụ Whisk. Ảnh chụp màn hình
Điều này có nghĩa là kết quả cuối cùng có thể không giống 100% với hình ảnh gốc. Ví dụ, chiều cao, kiểu tóc hoặc tông màu da của các đối tượng trong hình ảnh mới có thể khác với bản gốc. Mặc dù vậy, người dùng vẫn có thể điều chỉnh các thông tin đầu vào, thay đổi bối cảnh, phong cách hoặc phối hợp nhiều chủ đề để tạo ra những hình ảnh khác nhau.
Whisk có thể tạo ra những hình ảnh không chỉ từ văn bản mà còn từ hình ảnh gốc, mở rộng khả năng sáng tạo mà không yêu cầu người dùng phải có kinh nghiệm chỉnh sửa ảnh. Thomas Iljic, giám đốc quản lý sản phẩm tại Google Labs, cho biết: "Whisk được thiết kế để giúp người dùng phối lại chủ thể, bối cảnh và phong cách theo cách sáng tạo, giúp họ khám phá trực quan thay vì chỉnh sửa từng pixel một cách tỉ mỉ".
Mặc dù Whisk đang trong giai đoạn phát triển ban đầu, công cụ này đã được ra mắt dưới dạng trang web trên Google Labs và hiện có sẵn cho người dùng ở Mỹ.
Dan Ives, giám đốc điều hành và nhà phân tích cấp cao tại Wedbush Securities, cho biết Whisk đánh dấu "khoảnh khắc phô trương sức mạnh" khác của Google trong cuộc đua công nghệ.
Ives cũng lưu ý rằng DeepMind, phòng thí nghiệm AI mà Google mua lại vào năm 2014, là một tài sản quan trọng giúp Google duy trì vị thế trong lĩnh vực AI. Các sản phẩm AI, bao gồm Whisk, là một phần quan trọng trong chiến lược phát triển sản phẩm của Google trong những năm tới, với nhiều sản phẩm mới dự kiến ra mắt vào năm 2025.
Công cụ Whisk mở ra hướng đi mới trong việc sử dụng AI để tạo ra những sản phẩm sáng tạo mà không cần nhiều can thiệp từ người dùng. Điều này cho thấy sự tiến bộ của AI trong việc hiểu và phối hợp các yếu tố hình ảnh một cách sáng tạo.
Whisk là một phần trong xu hướng mạnh mẽ của các công ty công nghệ lớn, bao gồm Google và OpenAI, trong việc phát triển các công cụ AI phục vụ cho người tiêu dùng. Những công cụ này nhằm mang lại trải nghiệm sáng tạo mới mẻ, từ việc tạo hình ảnh, văn bản, cho đến video. Mới đây, OpenAI cũng đã giới thiệu một công cụ tạo video từ văn bản có tên là Sora, cạnh tranh trực tiếp với Whisk.
Ngọc Ánh (theo CNN, The Verge, ZDNET)