Các công ty công nghệ Trung Quốc đua nhau ra mắt mô hình AI
ByteDance công bố VINCIE-3B
VINCIE-3B học từ khung hình video được chuyển đổi thành chuỗi đa phương thức gồm văn bản và hình ảnh. Phương pháp huấn luyện này giúp giảm sự phụ thuộc vào các mô hình phân đoạn và phục hồi hình ảnh riêng biệt, từ đó đơn giản hóa quy trình chỉnh sửa.
Mô hình được đào tạo thông qua các tác vụ như dự đoán khung hình tiếp theo nhằm cải thiện khả năng hiểu cảnh vật và vật thể. Việc dự đoán diễn tiến khung hình giúp VINCIE-3B hiểu sâu hơn về ngữ cảnh tổng thể, từ đó nâng cao độ chính xác trong việc chỉnh sửa hình ảnh.
VINCIE-3B mở ra nhiều tiềm năng ứng dụng trong các ngành sáng tạo, bao gồm hậu kỳ điện ảnh, tiếp thị thương hiệu, trò chơi và sáng tạo nội dung mạng xã hội. Nhờ khả năng chỉnh sửa hình ảnh mượt mà theo dòng thời gian và theo ngữ cảnh, mô hình này có thể hỗ trợ các nhà sáng tạo nội dung ở nhiều lĩnh vực khác nhau.
Dù sở hữu năng lực tiên tiến, VINCIE-3B vẫn tồn tại một số hạn chế. Người dùng phản ánh rằng mô hình có thể tạo ra các hiện tượng "nhiễu thị giác" sau nhiều vòng chỉnh sửa liên tiếp. Ngoài ra, hiệu suất cũng giảm đáng kể khi sử dụng lời nhắc (prompt) bằng ngôn ngữ không phải tiếng Anh.
ByteDance cho biết sẽ cải thiện khả năng xử lý đa ngôn ngữ của mô hình trong các bản cập nhật tương lai. Hãng công nghệ Trung Quốc khẳng định sẽ tiếp tục nâng cấp VINCIE-3B, đặc biệt là về khả năng hỗ trợ nhiều ngôn ngữ nhằm mở rộng phạm vi ứng dụng toàn cầu.
Các mô hình liên tục ra mắt trong tháng 7
Ngày 2.7, Baidu công bố mô hình MuseSteamer với mục tiêu: Mô hình tạo video từ hình ảnh (Image-to-Video).
MuseSteamer kết hợp liền mạch hình ảnh, hiệu ứng âm thanh và giọng đọc của con người để tạo ra nội dung video chất lượng cao. Baidu tuyên bố mô hình này đạt tổng điểm 89,38% trên bảng xếp hạng VBench I2V, đứng đầu toàn cầu.
MuseSteamer cho phép người dùng tạo video chất lượng điện ảnh 1080p dài 10 giây chỉ từ một hình ảnh duy nhất. Các video được tạo ra có thể có biểu cảm vi mô chuyên nghiệp cho nhân vật và hiệu ứng chuyển động máy quay.
Kèm theo nền tảng sáng tạo Huixiang, cung cấp giao diện thân thiện với người dùng, các tính năng mạnh mẽ của MuseSteamer dễ tiếp cận và hiệu quả cho người tạo nội dung. MuseSteamer có ba phiên bản - Turbo, Pro và Lite. Phiên bản Turbo hiện có sẵn để thử nghiệm công khai miễn phí có giới hạn thời gian trên Huixiang.
Cũng đầu tháng 7, Alibaba công bố Qwen VLo và các cập nhật dòng Qwen. Đây là Mô hình AI đa phương thức mới, tập trung vào tạo hình ảnh từ văn bản (text-to-image) và chỉnh sửa ảnh.
Qwen VLo hỗ trợ cả tạo hình ảnh từ văn bản và từ hình ảnh (image-to-image), hiểu các câu lệnh văn bản bằng nhiều ngôn ngữ, bao gồm tiếng Anh và tiếng Trung. Nó còn hỗ trợ tỷ lệ khung hình đầu vào động, gồm cả các tỷ lệ cực đoan như 4:1 và 1:3. Alibaba cũng có kế hoạch sớm giới thiệu khả năng tạo hình ảnh với nhiều tỷ lệ khung hình khác.
Ngoài ra, Alibaba Cloud cũng liên tục cập nhật dòng mô hình ngôn ngữ lớn Qwen của mình. Qwen2.5 là series mới nhất, với các mô hình cơ sở và hướng dẫn có kích thước tham số từ 7 tỉ đến 72 tỉ. Các cải tiến gồm: Đào tạo trên tập dữ liệu quy mô lớn mới nhất chứa 18 nghìn tỉ token; Tăng cường đáng kể kiến thức và cải thiện mạnh mẽ khả năng lập trình và toán học nhờ các mô hình chuyên gia trong các lĩnh vực cụ thể.
Thấy gì khi các công ty Trung Quốc trăm nhà đua tiếng?
Cuộc đua AI toàn cầu đang tăng tốc: Trung Quốc đang đầu tư mạnh mẽ và cho thấy quyết tâm không thua kém các đối thủ phương Tây như OpenAI, Google, Meta.
Đa dạng hóa khả năng AI: Thay vì chỉ tập trung vào các chatbot ngôn ngữ lớn (LLM), các công ty Trung Quốc đang mở rộng sang các lĩnh vực AI tạo sinh khác như tạo video, chỉnh sửa hình ảnh, và các mô hình đa phương thức. Điều này phản ánh nhu cầu ngày càng tăng về nội dung sáng tạo và tự động hóa trong các ngành công nghiệp.
Tăng cường khả năng đa ngôn ngữ: Mặc dù tiếng Anh vẫn là ngôn ngữ chính trong đào tạo và sử dụng AI toàn cầu, các mô hình Trung Quốc đang nỗ lực cải thiện khả năng hỗ trợ tiếng Trung và các ngôn ngữ khác, cho thấy sự tập trung vào thị trường nội địa và khu vực.
Chiến lược nguồn mở và cạnh tranh giá: Một số mô hình được phát hành miễn phí hoặc với chi phí thấp hơn, cho thấy Trung Quốc đang muốn thúc đẩy sự áp dụng rộng rãi của AI và xây dựng một hệ sinh thái mạnh mẽ, cạnh tranh về chi phí và hiệu quả.
Tập trung vào ứng dụng thực tế: Các mô hình mới thường được giới thiệu kèm theo các nền tảng hoặc công cụ hỗ trợ người dùng cuối và doanh nghiệp, nhấn mạnh khả năng ứng dụng thực tế trong các ngành công nghiệp sáng tạo, tiếp thị và giải trí.
Anh Tú