PixVerse vừa ra mắt một công cụ AI (trí tuệ nhân tạo) cho phép người dùng điều khiển diễn biến của video ngay trong lúc nó đang được tạo ra. Giống đạo diễn phim, người dùng có thể điều chỉnh để nhân vật khóc, nhảy múa hoặc tạo dáng, với những hành động này diễn ra gần như tức thì khi video tiếp tục được tạo.
Tạo video AI theo thời gian thực có thể mở ra những mô hình kinh doanh mới, Jaden Xie (đồng sáng lập PixVerse) nói với hãng tin CNBC. Ông cho biết người dùng có thể trực tiếp tác động đến diễn biến của các phim ngắn dạng micro-drama, hoặc chơi những game video với cốt truyện không bị bó buộc trong các kịch bản được thiết kế sẵn.
Phim ngắn dạng micro-drama có thời lượng rất ngắn, thường chỉ từ vài chục giây đến vài phút mỗi tập, được thiết kế để xem nhanh trên smartphone và mạng xã hội. Nội dung của micro-drama thường đi thẳng vào cao trào, tiết tấu nhanh, kịch tính rõ rệt, ít chi tiết phụ và chia thành nhiều tập ngắn liên tiếp để giữ người xem ở lại.
Được thành lập vào năm 2023, PixVerse đã huy động hơn 60 triệu USD vào mùa thu năm ngoái, với Alibaba dẫn dắt vòng gọi vốn và có sự tham gia của Antler.
Có trụ sở chính tại Singapore, Antler là quỹ đầu tư mạo hiểm toàn cầu chuyên tập trung vào các công ty khởi nghiệp ở giai đoạn rất sớm, thậm chí đầu tư ngay từ khi nhà sáng lập mới chỉ có ý tưởng.
Antler thường hỗ trợ các doanh nhân bằng vốn ban đầu, chương trình cố vấn, mạng lưới chuyên gia và giúp họ xây dựng đội ngũ, hoàn thiện sản phẩm để phát triển thành công ty khởi nghiệp hoàn chỉnh. Quỹ này hoạt động tại nhiều quốc gia, trong đó có châu Á, châu Âu và Mỹ, đặc biệt nổi tiếng với mô hình “đầu tư từ con người trước, ý tưởng sau”.
Jaden Xie cho biết PixVerse đang tiến rất gần đến việc hoàn tất một vòng gọi vốn khác, nhưng không tiết lộ số tiền. Ông nói thêm rằng hơn một nửa số nhà đầu tư tham gia vòng này đến từ nước ngoài.
Các đoạn video AI mẫu trên trang web của PixVerse
Gây áp lực với OpenAI và Google
Công cụ mới nhất của PixVerse cho thấy các công ty Trung Quốc đang tạo ra áp lực cạnh tranh đáng kể lên đối thủ trong lĩnh vực tạo video bằng AI.
Ngoài Sora 2 Pro của OpenAI, Google Veo 3.1 và LTX-2 Pro của công ty khởi nghiệp Lightricks (Israel), phần lớn mô hình tạo video AI hàng đầu đều đến từ Trung Quốc, theo Artificial Analysis. Nhiều mô hình AI trong số này có tốc độ tạo video nhanh hơn nhiều so với Sora 2 Pro và chi phí sử dụng thấp hơn đáng kể.
Artificial Analysis là công ty nghiên cứu và đánh giá độc lập chuyên theo dõi, so sánh và xếp hạng các mô hình AI như tạo văn bản, hình ảnh, video. Công ty này xây dựng các bảng đánh giá chuẩn để đo lường chất lượng, tốc độ, chi phí và hiệu năng của từng mô hình. Từ đó, doanh nghiệp, nhà phát triển và giới đầu tư sẽ hiểu rõ mô hình AI nào đang dẫn đầu, có lợi thế về giá hay khả năng mở rộng. Các báo cáo và xếp hạng của Artificial Analysis thường được truyền thông và giới công nghệ trích dẫn như một nguồn tham khảo đáng tin cậy trong lĩnh vực AI.
Sora lần đầu thu hút sự chú ý toàn cầu gần hai năm trước, nhưng phải đến tháng 12.2024 mới được OpenAI cung cấp rộng rãi. Khi đó, một số công ty Trung Quốc đã sớm tung ra các mô hình tạo video AI cạnh tranh cho người dùng trên toàn cầu.
Wei Sun, nhà phân tích chính của công ty nghiên cứu thị trường Counterpoint Research, cho biết: “Sora vẫn là chuẩn mực cao nhất về chất lượng trong lĩnh vực tạo video bằng AI, song điểm hạn chế là thời gian tạo video còn chậm và chi phí sử dụng cao do cách tính phí qua API (giao diện lập trình ứng dụng). Các công ty Trung Quốc đang đi theo một con đường khác. Họ đang biến việc tạo video AI thành một công cụ sản xuất có thể mở rộng, chi phí thấp và năng suất cao”.
Tháng 12.2025, công ty khởi nghiệp Shengshu Technology (có trụ sở ở thủ đô Bắc Kinh) cho biết kỹ thuật TurboDiffusion của họ, được phát triển cùng các nhà nghiên cứu từ Đại học Thanh Hoa (Trung Quốc) và Đại học California - Berkeley (Mỹ), có thể tạo video AI nhanh hơn từ 100 đến 200 lần với mức suy giảm chất lượng tối thiểu.
TurboDiffusion đã rút ngắn thời gian tạo một đoạn video 5 giây độ phân giải tiêu chuẩn từ hơn 3 phút xuống chỉ còn 1,9 giây, nhanh hơn gần 100 lần, khi thử nghiệm trên hệ thống tiêu dùng sử dụng bộ xử lý đồ họa (GPU) Nvidia RTX 5090, theo nghiên cứu. Ở thí nghiệm khác, thời gian tạo một video 5 giây độ phân giải cao (HD) trên cùng cấu hình máy đã giảm từ gần 80 phút xuống còn 24 giây, tức nhanh hơn khoảng 200 lần.
Hiện nay, người dùng cần từ 3 đến 5 phút để tạo một video 5 giây tiêu chuẩn trên nền tảng Vidu của Shengshu Technology. OpenAI từng cho biết mô hình chuyển văn bản thành video Sora của họ cần vài phút để dựng xong một video ngắn.
Tham vọng mạng xã hội
Công cụ AI mới nhất của PixVerse đã loại bỏ gần như toàn bộ thời gian chờ khi tạo video và không chỉ dừng lại ở vai trò như tạo hiệu ứng kỹ xảo đơn thuần. Công cụ này được tích hợp trực tiếp vào nền tảng mang phong cách mạng xã hội của PixVerse, đã vượt mốc 16 triệu người dùng hoạt động hàng tháng hồi tháng 10.2025.
Jaden Xie cho biết việc tạo video theo thời gian thực xóa bỏ khoảng cách giữa khâu sáng tạo nội dung và phân phối đến người xem, từ đó định hình lại cách người dùng tương tác với nội dung do AI tạo.
Jaden Xie tiết lộ PixVerse đặt mục tiêu đạt 200 triệu người dùng đăng ký trong nửa đầu 2026, tăng từ 100 triệu vào tháng 8.2025, đồng thời gần như tăng gấp đôi quy mô đội ngũ lên khoảng 200 nhân viên vào cuối năm nay.
PixVerse chủ yếu phục vụ người dùng bên ngoài Trung Quốc thông qua giao diện trình duyệt web và ứng dụng trên smartphone.
"So với các công cụ video AI do Trung Quốc sản xuất, hầu hết các sản phẩm của Mỹ tương đối đơn giản và tối giản về giao diện lẫn trải nghiệm người dùng”, theo bà Alyssa Lee - chánh văn phòng tại DataHub.
DataHub là hãng công nghệ chuyên cung cấp nền tảng quản lý và chia sẻ dữ liệu cho doanh nghiệp. Nền tảng này giúp các tổ chức tập trung dữ liệu từ nhiều nguồn khác nhau, quản lý quyền truy cập, theo dõi nguồn gốc dữ liệu và hỗ trợ các nhóm dữ liệu, phân tích hoặc AI làm việc hiệu quả hơn trên cùng một hệ thống.
Alyssa Lee nói các công cụ video AI chuyên dụng theo từng kịch bản cụ thể có con đường kiếm tiền rõ ràng hơn và chỉ ra rằng Adobe, hãng cung cấp phần mềm truyền thống, đang phải đối mặt với áp lực. Từ lâu đã là tiêu chuẩn cho phần mềm video và thiết kế, Adobe đã chứng kiến giá cổ phiếu của mình trì trệ những tháng gần đây. "Bộ phần mềm sáng tạo tất cả trong một của họ trở nên kém hấp dẫn và dễ bị thay thế hơn bởi tất cả công cụ AI sáng tạo phục vụ tiếp thị", Alyssa Lee nhận định.
PixVerse ước tính doanh thu định kỳ hằng năm đạt 40 triệu USD vào tháng 10.2025.
Kling, công cụ video AI hàng đầu do hãng Kuaishou (Trung Quốc) phát triển, đã ghi nhận doanh thu gần 100 triệu USD trong ba quý đầu năm 2025, dựa trên các tính toán của hãng tin CNBC từ các công bố công khai.
Hiện tại, Jaden Xie cho biết PixVerse ưu tiên phát triển công nghệ hơn là thương mại hóa, đồng thời khẳng định công ty có đủ nguồn vốn để vận hành trong vòng một thập kỷ.
Trước những lo ngại về nội dung AI chất lượng thấp, thường bị gọi là slop, Jaden Xie so sánh giai đoạn hiện nay với những năm đầu của đồ họa máy tính, cho rằng chất lượng sẽ được cải thiện khi công nghệ trưởng thành.
“Ở giai đoạn đầu sẽ có nội dung tốt lẫn xấu, nhưng dần dần những thứ phù hợp nhất chắc chắn sẽ tồn tại… Sau đó sẽ có những hãng cải tiến công nghệ, thực sự đáp ứng nhu cầu của con người về giá trị cảm xúc và tinh thần”, ông bình luận.
Sơn Vân