Cách các mô hình AI tạo video Trung Quốc phát triển thần tốc

2 giờ trướcBài gốc

Các mô hình AI tạo video Trung Quốc dần tìm chỗ đứng trên bản đồ toàn cầu

Tại Bắc Kinh và Thâm Quyến, sự nín thở đó nhanh chóng chuyển thành một cảm giác ớn lạnh chạy dọc sống lưng giới công nghệ. Vào thời điểm ấy, khoảng cách giữa các sản phẩm nội địa Trung Quốc với Sora không chỉ là một con suối nhỏ, mà là cả một vực thẳm đại dương. Những video do AI Trung Quốc tạo ra lúc bấy giờ vẫn còn giật cục, méo mó và ngắn ngủi, trong khi Sora đã vẽ nên những thước phim 60 giây mượt mà như Hollywood. Nhiều người đã vội vã tin rằng Trung Quốc đã thua trắng trong cuộc đua này.

Nhưng họ đã lầm. Chỉ trong vòng chưa đầy sáu tháng sau "khoảnh khắc Sputnik" ấy, guồng máy công nghệ khổng lồ của đất nước tỉ dân đã chuyển mình với một tốc độ chóng mặt. Từ tâm thế của kẻ bám đuổi tuyệt vọng, các startup và gã khổng lồ công nghệ nước này đã tung ra những cú đấm thép, xóa nhòa khoảng cách mà Mỹ tưởng chừng đã độc quyền. Hãy cùng tua lại cuốn băng lịch sử của năm 2024 đầy biến động, để chứng kiến sự trỗi dậy thần tốc của những cái tên như Vidu và Kling trong cuộc chiến giành lại lòng tự tôn công nghệ.

Trước cơn bão và cú hích từ "bóng ma" OpenAI

Để hiểu được mức độ chấn động mà Sora gây ra, chúng ta cần nhìn lại bức tranh ảm đạm của AI video Trung Quốc trong năm 2023. Khi ấy, các ông lớn như Baidu, Tencent hay Alibaba không phải là không có sản phẩm. Họ đã công bố những dự án như Animate Anyone hay MagicAnimate và cộng đồng học thuật Trung Quốc vẫn miệt mài xuất bản hàng ngàn bài báo nghiên cứu.

Tuy nhiên, các sản phẩm thực tế lại là một câu chuyện hoàn toàn khác. Hầu hết các mô hình lúc bấy giờ chỉ có thể tạo ra những đoạn video ngắn ngủi, thường chỉ kéo dài 2 đến 4 giây. Đáng ngại hơn là chất lượng hình ảnh rất thiếu ổn định. Các nhân vật trong video thường xuyên bị biến dạng khi chuyển động, khuôn mặt lúc phồng lúc xẹp và phông nền phía sau thì liên tục thay đổi một cách phi logic. AI video khi đó, trong mắt người dùng Trung Quốc, giống như một món đồ chơi công nghệ thú vị nhưng vô dụng để làm việc chuyên nghiệp.

Rồi Sora xuất hiện như một gáo nước lạnh tạt thẳng vào sự tự mãn ấy. Những video dài tới một phút với độ phân giải cao, bối cảnh phức tạp và khả năng duy trì tính nhất quán của nhân vật tuyệt đối đã tạo nên một cơn địa chấn tâm lý (FOMO) bao trùm lên toàn bộ Thung lũng Silicon của Trung Quốc. Các nhà đầu tư mạo hiểm tại khu Haidian (Bắc Kinh) và Nanshan (Thâm Quyến) rơi vào trạng thái hoảng loạn. Áp lực đè nặng lên vai các "kỳ lân" công nghệ.

Câu hỏi nhức nhối được đặt ra trong mọi cuộc họp hội đồng quản trị lúc đó là: "Tại sao chúng ta với hàng tỉ đô la ngân sách R&D lại để người Mỹ bỏ xa đến thế?". OpenAI không chỉ tung ra một sản phẩm, họ đã thả ra một "bóng ma" ám ảnh, đe dọa vị thế cường quốc AI mà Trung Quốc dày công xây dựng.

Nhưng chính trong sự hoảng loạn đó, bản lĩnh của "tốc độ Trung Quốc" (China Speed) đã được kích hoạt. Dòng vốn đầu tư mạo hiểm lập tức đổi hướng. Nếu như năm 2023, tiền đổ dồn vào các mô hình ngôn ngữ lớn (LLM) dạng ChatGPT, thì sang đầu năm 2024, hàng tỉ nhân dân tệ đã được bơm cấp tốc vào các startup chuyên về thị giác máy tính (Computer Vision) và AI tạo sinh đa phương thức.

Một mệnh lệnh bất thành văn được truyền đi khắp giới công nghệ: Phải tạo ra "Sora của Trung Quốc" trước khi năm 2024 kết thúc, bằng bất cứ giá nào. Các phòng lab sáng đèn 24/7, các kỹ sư giỏi nhất được triệu tập và một cuộc chạy đua vũ trang về thuật toán chính thức bắt đầu, với quyết tâm không để người Mỹ độc diễn trên sân khấu này quá lâu.

Vidu - Lời đáp trả đầu tiên từ Thanh Hoa

Chỉ hai tháng sau cú sốc Sora vào tháng 4 năm 2024, lời đáp trả đầu tiên đanh thép nhất đã được cất lên. ShengShu Technology, một startup non trẻ nhưng có "gốc gác" cực khủng khi được hậu thuẫn bởi đội ngũ nghiên cứu tinh hoa từ Đại học Thanh Hoa – ngôi trường được mệnh danh là MIT của Trung Quốc – đã chính thức trình làng mô hình Vidu. Đây là thời khắc lịch sử, đánh dấu lần đầu tiên một công ty Trung Quốc dám công khai tuyên bố sản phẩm của mình đạt "đẳng cấp Sora".

Vidu không ra đời ngẫu nhiên. Nó là kết tinh của một kiến trúc công nghệ độc đáo mà đội ngũ ShengShu gọi là U-ViT. Để dễ hình dung, nếu các mô hình cũ giống như việc cố gắng ghép những bức tranh rời rạc lại với nhau, thì U-ViT kết hợp sức mạnh của hai công nghệ cốt lõi: Diffusion (Mô hình khuếch tán - giỏi vẽ chi tiết) và Transformer (Mô hình biến đổi - giỏi hiểu ngữ cảnh và chuỗi thời gian).

Sự kết hợp này cho phép Vidu tạo ra những video dài 16 giây với độ phân giải 1080p chỉ bằng một cú nhấp chuột. Quan trọng hơn, nó giải quyết được bài toán hóc búa nhất: tính nhất quán. Nhân vật trong video của Vidu khi quay đầu, di chuyển vẫn giữ nguyên được đặc điểm khuôn mặt và trang phục, không bị biến thành người khác như các mô hình cũ.

Dù vào thời điểm ra mắt, Vidu vẫn chưa thực sự hoàn hảo khi so sánh trực diện với những demo tốt nhất của Sora – đôi khi vật lý trong video vẫn còn chút gượng gạo – nhưng ý nghĩa của nó vượt xa giá trị sử dụng. Vidu là phát súng hiệu triệu, trấn an toàn bộ thị trường nội địa rằng "bí mật nước sốt" của OpenAI không phải là bất khả xâm phạm.

Nó chứng minh rằng các kỹ sư Trung Quốc đã nắm được lõi công nghệ tiên tiến nhất và hoàn toàn có thể sao chép, thậm chí tối ưu hóa nó trong thời gian ngắn kỷ lục. Sự xuất hiện của Vidu đã phá tan bầu không khí u ám, mở đường cho một làn sóng các sản phẩm AI video tiếp theo ra đời ồ ạt sau đó.

Kuaishou Kling - Kẻ thay đổi cuộc chơi và định nghĩa lại "thực tế"

Nếu Vidu là người mở đường, thì Kling (Kling AI) mới thực sự là kẻ thay đổi cuộc chơi, đưa Trung Quốc từ thế phòng thủ sang tấn công. Tháng 6 năm 2024, Kuaishou – gã khổng lồ video ngắn và là đối thủ truyền kiếp của TikTok tại Trung Quốc – đã làm chấn động giới công nghệ toàn cầu khi tung ra Kling. Không còn là những lời tuyên bố dè dặt, Kling thực sự là một con quái vật về hiệu suất.

Mô hình này sở hữu những thông số kỹ thuật khiến ngay cả các kỹ sư tại thung lũng Silicon cũng phải ngả mũ: khả năng tạo video dài tới 2 phút (gấp đôi thời lượng của Sora lúc bấy giờ), độ phân giải Full HD 1080p và tốc độ khung hình 30fps mượt mà. Nhưng điều khiến Kling trở thành huyền thoại trong năm 2024 chính là khả năng "hiểu" vật lý thế giới thực.

Cộng đồng mạng khi ấy đã chuyền tay nhau một đoạn video demo kinh điển do Kling tạo ra: cảnh một người đàn ông đang ăn mì. Trước đó, đây là "bài thi trượt" của hầu hết các AI, khi chúng thường vẽ sợi mì tan biến vào mặt người hoặc dĩa mì bay lơ lửng. Nhưng với Kling, người đàn ông gắp mì, đưa vào miệng, nhai và nuốt một cách tự nhiên đến kinh ngạc. Ánh sáng phản chiếu trên sợi mì, độ đàn hồi của thức ăn và cơ mặt chuyển động đều tuân theo các quy tắc vật lý chuẩn xác.

Thành công của Kling không chỉ đến từ thuật toán vượt trội mà còn nhờ vào chiến lược "bình dân hóa" táo bạo. Trong khi Sora của OpenAI vẫn đóng kín cửa, chỉ cho phép một nhóm nhỏ nghệ sĩ và chuyên gia tiếp cận, thì Kuaishou đã mở cửa Kling cho người dùng đại chúng thử nghiệm thông qua ứng dụng chỉnh sửa video của họ. Chiến lược này là một nước cờ cao tay. Bằng cách tích hợp AI vào hệ sinh thái video ngắn khổng lồ với hàng trăm triệu người dùng hàng ngày, Kuaishou đã thu về một lượng dữ liệu phản hồi (feedback data) khổng lồ mà không phòng thí nghiệm nào có thể mô phỏng được.

Kling đã đánh dấu một bước ngoặt quan trọng: AI video tại Trung Quốc chính thức chuyển mình từ những dự án nghiên cứu trong phòng thí nghiệm sang công cụ giải trí và sáng tạo nội dung cho đại chúng. Đến giữa năm 2024, người dùng Trung Quốc đã có thể tự tay tạo ra những thước phim ngắn chất lượng điện ảnh ngay trên điện thoại của mình. Khoảng cách mênh mông hồi đầu năm đã bị san lấp. Trung Quốc không chỉ bắt kịp "bóng ma" Sora, mà ở khía cạnh thương mại hóa và ứng dụng thực tiễn, họ bắt đầu vượt lên, đặt nền móng vững chắc cho sự bùng nổ sau này.

Bùi Tú

Nguồn Một Thế Giới : https://1thegioi.vn/cach-cac-mo-hinh-ai-tao-video-trung-quoc-phat-trien-than-toc-245291.html