Google DeepMind, phòng nghiên cứu AI hàng đầu của Google, ngày 16/12 đã chính thức giới thiệu Veo 2 - thế hệ tiếp theo của AI tạo video Veo.
Theo Google, Veo 2 có khả năng tạo ra các đoạn video dài hơn 2 phút với độ phân giải lên đến 4K (4096 x 2160 pixel). Đây là một bước tiến đáng chú ý với độ phân giải gấp 4 lần và thời lượng gấp hơn 6 lần so với những gì Sora - mô hình tạo văn bản thành video của OpenAI có thể đạt được. Hiện tại, công cụ tạo video thử nghiệm VideoFX của Google, nơi Veo 2 được cung cấp độc quyền, video giới hạn ở độ phân giải 720p và độ dài 8 giây.
Google sẽ mở rộng số lượng người dùng truy cập VideoFX trong tuần này. Phó Chủ tịch phụ trách phát triển sản phẩm tại DeepMind Eli Collins cho biết: "Trong những tháng tới, chúng tôi sẽ tiếp tục cải tiến dựa trên phản hồi từ người dùng".
Cũng như Veo, Veo 2 có thể tạo video dựa trên thông tin bằng văn bản hoặc hình ảnh tham khảo. Công cụ này cũng có thể mô hình hóa chuyển động, động lực học chất lỏng và các đặc tính của ánh sáng một cách chân thực hơn, nhờ các ống kính và hiệu ứng điện ảnh khác nhau.
Deepfake là phương thức tạo ra các sản phẩm công nghệ giả dưới dạng âm thanh, hình ảnh hoặc thậm chí là cả video bởi AI tinh vi. Để giảm thiểu rủi ro về deepfake, DeepMind cho biết công ty này đã tích hợp công nghệ tạo hình mờ độc quyền SynthID để chèn vào các khung hình mà Veo 2 tạo ra. Đây là một biện pháp quan trọng để xác định nguồn gốc của video và ngăn chặn việc sử dụng sai mục đích.
Dự báo về bước phát triển tiếp theo của AI sau ChatGPT, tạp chí Le Nouvel Economiste của Pháp cho rằng có ba yếu tố quyết định tương lai của AI tạo sinh, đó là sức mạnh thuật toán, dữ liệu và nguồn lực tài chính.
Điểm đầu tiên là sức mạnh của thuật toán, vốn đòi hỏi một nguồn lực tài chính lớn, buộc các nhà phát triển mô hình thuật toán phải làm việc một cách hiệu quả. Với các chi phí khổng lồ cần thiết cho việc huấn luyện và triển khai các mô hình mạnh hơn, OpenAI hiện chưa bắt đầu làm việc trên mô hình lớn tiếp theo của họ, ví dụ GPT-5, mà thay vào đó, họ đang tập trung vào việc phát triển GPT-4.5, một phiên bản cải tiến của sản phẩm chính hiện tại của họ.
Dữ liệu là yếu tố thứ hai định hình thị trường AI tạo sinh. Tất cả các mô hình này hiện đang cố gắng thu thập càng nhiều dữ liệu càng tốt. Những mô hình lớn nhất như của OpenAI và Google đòi hỏi nhiều dữ liệu và tính toán để huấn luyện và hoạt động hiệu quả: Chúng đã được huấn luyện trên hơn 1.000 tỷ từ, tương đương với hơn 250 Wikipedia bằng tiếng Anh.
Cơn khát dữ liệu và sức mạnh tính toán của AI tạo sinh càng làm tăng thêm tầm quan trọng của yếu tố thứ ba trong phương trình, đó là nguồn lực tài chính. Nhiều nhà xây dựng các mô hình thuật toán đang chuyển hướng từ phát triển các robot như ChatGPT, được dành cho công chúng, sang việc tập trung vào các doanh nghiệp hoặc lĩnh vực có khả năng sinh lợi nhuận cao hơn. OpenAI, bắt đầu hoạt động vào năm 2015 như một tổ chức phi lợi nhuận, đã thể hiện sự nhiệt huyết đặc biệt trong việc này. Công ty không chỉ cấp phép cho Microsoft sử dụng các mô hình của mình mà còn thiết lập các công cụ được thiết kế riêng cho các công ty như Morgan Stanley và Salesforce.
Một cách tiếp cận khác là hợp tác với các nhà phát triển phần mềm để họ sử dụng và phát triển các ứng dụng dựa trên mô hình của OpenAI. Mục tiêu là tạo ra một mạng lưới của các ứng dụng và dự án liên quan đến trí tuệ nhân tạo thu hút nhiều người sử dụng và phát triển hơn. OpenAI cung cấp các công cụ giúp họ tạo ra sản phẩm bằng cách sử dụng các mô hình của OpenAI. Trong khi Meta, công ty của Facebook, hy vọng rằng LlamA, mô hình mã nguồn mở của họ, sẽ giúp tạo ra một cộng đồng lập trình viên trung thành.
Minh Trang (TTXVN)