Giải mã Gemini Veo 3.1: Chuẩn mực mới của video AI

4 giờ trướcBài gốc

Google và OpenAI đang theo đuổi hai triết lý trái ngược trong cuộc đua video AI. Với Veo 3.1, Google nhấn mạnh chất lượng, tốc độ và kiểm soát nội dung, hướng tới các tình huống sử dụng thực tế. Trong khi đó, OpenAI với Sora 2 chọn con đường cởi mở hơn, ưu tiên tăng trưởng lan truyền và ít rào cản hơn, nhưng đi kèm nhiều tranh cãi. Bài viết này phân tích kỹ thuật các năng lực của Gemini Veo 3.1, ưu/nhược điểm và so sánh ngắn gọn với Sora 2 dựa trên thông tin nguồn.

Hình minh họa từ YouTube về chủ đề Gemini Veo 3.1

Veo 3.1 đang giải quyết vấn đề gì trong video AI

Với bản cập nhật 3.1, Google tập trung nâng chất lượng và tốc độ tạo sinh, đồng thời tăng khả năng can thiệp của người dùng vào sản phẩm cuối. Điều này đối lập với hướng tiếp cận thiên về lan truyền (viral) và tốc độ phát tán kiểu nền tảng ngắn hạn mà Sora 2 đang theo đuổi. Theo đó, Veo 3.1 được định vị cho mục đích thực tế, ưu tiên sự an toàn và kiểm soát nội dung, thay vì tối đa hóa tính cởi mở.

Những năng lực cốt lõi của Veo 3.1

Chỉnh sửa đối tượng ngay trong cảnh quay

Veo 3.1 cho phép chèn hoặc xóa vật thể khỏi bất kỳ cảnh quay nào. Khả năng này giúp tinh chỉnh bố cục khung hình, loại bỏ chi tiết gây nhiễu hoặc thêm yếu tố mới để phù hợp ý đồ kể chuyện, mà không cần quay lại từ đầu.

Kéo dài video vượt điểm kết thúc

Người dùng có thể kéo dài video vượt quá điểm kết thúc ban đầu. Đây là một năng lực quan trọng để hoàn thiện nhịp kể, bổ sung thời lượng cho cảnh, hoặc nối mạch nội dung khi hậu kỳ.

Tạo chuyển cảnh từ hai khung hình tĩnh

Veo 3.1 hỗ trợ tạo các chuyển cảnh giữa hai khung hình tĩnh, mở ra cách ghép cảnh có kiểm soát, chuyển mượt từ ý A sang ý B dựa trên hai ảnh tham chiếu.

Điều khiển giao diện và cảm xúc bằng tham chiếu

Người dùng có thể hướng dẫn giao diện và cảm xúc của một cảnh bằng hình ảnh, vật thể và tâm trạng tham chiếu. Điều này tăng độ nhất quán về phong cách và cảm xúc giữa các cảnh.

Âm thanh theo ngữ cảnh

Veo 3.1 cải thiện cả chất lượng video lẫn âm thanh, đặc biệt là âm nền phong phú hơn và chính xác hơn theo ngữ cảnh những gì đang diễn ra, giúp sản phẩm cuối bớt “rời rạc” giữa hình và tiếng.

Hình minh họa về cập nhật Veo 3.1 với trọng tâm chất lượng và kiểm soát

Điểm mạnh: chất lượng, kiểm soát và định vị thực dụng

Tập trung vào chất lượng và tốc độ: Bản 3.1 được công bố là mang tới thay đổi lớn, chủ yếu xoay quanh việc nâng chất lượng đầu ra và tốc độ xử lý.
Khả năng hậu kỳ trong một mô hình: Các thao tác chèn/xóa vật thể, kéo dài cảnh, chuyển giữa ảnh tĩnh cho phép tinh chỉnh sâu trong một pipeline thống nhất.
Âm thanh theo ngữ cảnh: Âm nền giàu hơn và khớp bối cảnh giúp video tự nhiên và gắn kết hơn.
Guardrails rõ ràng: Veo 3.1 hạn chế tạo người thật và giới hạn hình ảnh bạo lực hoặc nguy hiểm. Hướng tiếp cận này giảm rủi ro nội dung không phù hợp, phù hợp quy định và an toàn thương hiệu.

Hạn chế và thách thức: đổi mới có kiểm soát

Khi ưu tiên kiểm soát nội dung, tính cởi mở bị thu hẹp. Ngược lại, cách tiếp cận nới lỏng của Sora 2 đã giúp tăng đáng kể người dùng và lưu lượng, song đi kèm rủi ro: các công ty đã đối mặt tranh cãi vì để người dùng tạo ra nội dung không phù hợp.

Ở chiều chất lượng, nguồn cho biết Sora 2 dù nâng cấp rõ rệt vẫn gặp các lỗi đáng chú ý như vật thể bị lỗi ở hậu cảnh. Trong khi đó, Veo 3.1 đặt mục tiêu khắc phục bằng việc tăng chất lượng tổng thể và quyền can thiệp vào sản phẩm cuối. Tuy nhiên, nguồn không đưa ra số đo định lượng, nên khó đánh giá mức cải thiện tuyệt đối.

Đặt lên bàn cân: Veo 3.1 và Sora 2

Ý nghĩa chiến lược và triển vọng

Với Veo 3.1, Google tiến sâu hơn vào quỹ đạo “thực dụng”: cải thiện chất lượng, tăng khả năng can thiệp và thiết lập guardrails. Cách làm này phù hợp bối cảnh tuân thủ, an toàn thương hiệu và yêu cầu kiểm soát cao trong sản xuất nội dung.

OpenAI với Sora 2 chọn cách mở rộng biên sử dụng, áp dụng opt-in cho người nổi tiếng và dự kiến giới hạn độ tuổi để cho phép nội dung khiêu dâm. Hướng này có thể thúc đẩy tăng trưởng người dùng nhanh, nhưng cũng khiến công cụ phải gánh rủi ro và tranh cãi nhiều hơn khi nội dung bị lạm dụng.

Tổng kết lại, nếu ưu tiên kiểm soát, tính nhất quán và cải thiện chất lượng/âm thanh theo ngữ cảnh, Veo 3.1 đang đặt ra một chuẩn mực đáng chú ý cho video AI. Nếu ưu tiên tính lan truyền và biên sáng tạo rộng hơn, Sora 2 thể hiện một chiến lược khác. Việc lựa chọn phụ thuộc vào mục tiêu sử dụng và ngưỡng chấp nhận rủi ro của từng tổ chức.

CTVX

Nguồn Lâm Đồng : https://baolamdong.vn/giai-ma-gemini-veo-31-chuan-muc-moi-cua-video-ai-397436.html