Mô hình AI biến một bức ảnh duy nhất thành thế giới 3D

4 giờ trướcBài gốc

Hãng công nghệ hàng đầu Trung Quốc Tencent vừa công bố một mô hình trí tuệ nhân tạo mới, có khả năng tạo ra các video mô phỏng chuyển động trong không gian ba chiều chỉ bằng một hình ảnh đầu vào duy nhất.

Được gọi là HunyuanWorld-Voyager, hệ thống này tạo ra các clip ngắn chứa thông tin chiều sâu, sau đó có thể được tái tạo thành ma trậnvđiểm 3D - mở ra những khả năng mới cho các nhà sáng tạo nội dung, mặc dù vẫn chưa đạt đến mức độ tương tác hoàn toàn với các mô hình 3D.

HunyuanWorld-Voyager là một mô hình trọng số mở tạo ra các chuỗi 49 khung hình - khoảng hai giây video - nhưng người dùng có thể liên kết các clip để tạo thành nhiều phút cảnh quay liên tục.

Ars Technica lưu ý rằng khi người xem thay đổi góc nhìn của camera ảo, các vật thể vẫn giữ nguyên vị trí tương đối của chúng, và môi trường hoạt động như thể hoàn toàn ba chiều. Mặc dù đầu ra cuối cùng vẫn là video hai chiều, Tencent cho biết dữ liệu độ sâu đi kèm cho phép tái tạo 3D mà không cần các kỹ thuật mô hình hóa truyền thống.

Voyager hoạt động bằng cách kết hợp hình ảnh đầu vào với đường dẫn camera do người dùng xác định. Người dùng chỉ định các chuyển động như lia, nghiêng hoặc di chuyển qua cảnh, và hệ thống sẽ đồng thời tạo video màu và bản đồ độ sâu. Khi một vật thể xuất hiện trong video, dữ liệu độ sâu đầu ra sẽ ghi lại khoảng cách tương đối của nó theo đúng vị trí.

Một thành phần thứ cấp, được gọi là bộ nhớ đệm thế giới trong báo cáo kỹ thuật của Tencent, lưu trữ các đám mây điểm 3D khi hệ thống tạo ra các khung hình mới.

Với mỗi chuyển động của camera, Voyager sẽ chiếu các điểm này trở lại thành hai chiều và sử dụng chúng làm tham chiếu. Quá trình này đảm bảo các khung hình tiếp theo khớp với nội dung đã tạo trước đó, giúp duy trì tính nhất quán về mặt không gian.

Mô hình này bảo vệ chống biến dạng sau khi tạo khung hình bằng cách chuyển đổi chúng thành các điểm 3D, sau đó phản hồi về hệ thống để so sánh. Vòng phản hồi này đảm bảo tính ổn định hình học, mặc dù lỗi tích tụ dần dần.

Phương pháp này duy trì video mạch lạc trong vài phút nhưng gặp khó khăn với các chuyển động camera dài hơn hoặc phức tạp hơn, đặc biệt là các chuyển động xoay 360°.

Tencent đã đào tạo Voyager dựa trên hơn 100.000 đoạn video clip, bao gồm cả cảnh quay thực tế và các cảnh được tạo bằng Unreal Engine. Bộ dữ liệu quy mô lớn này đã dạy hệ thống cách camera thường di chuyển trong môi trường ba chiều. Một quy trình tự động riêng biệt đã tạo ra các đầu vào đào tạo bằng cách quét các đoạn video clip để tính toán độ sâu cho từng khung hình, loại bỏ nhu cầu phải dán nhãn dữ liệu thủ công.

Hệ thống này đòi hỏi sức mạnh tính toán khổng lồ. Việc chạy mô hình ở độ phân giải 540p đòi hỏi ít nhất 60GB bộ nhớ GPU, và khuyến nghị 80GB để có kết quả tối ưu. Tencent đã công bố trọng số mô hình trên Hugging Face và hỗ trợ cả thiết lập đơn GPU và đa GPU. Sử dụng nền tảng xDiT, công ty cho biết hiệu suất sẽ được mở rộng theo chiều ngang - một hệ thống với tám GPU có thể xử lý cảnh quay nhanh hơn khoảng 6,7 lần so với chạy một GPU.

Hầu hết các mô hình video tạo hình đều tạo ra từng khung hình một mà không áp dụng tính nhất quán hình học. Ví dụ, Sora của OpenAI ưu tiên tính chân thực trực quan hơn tính nhất quán 3D. Voyager lại có một cách tiếp cận khác, duy trì hình học rõ ràng trên khắp các khung hình thông qua việc khớp mẫu dựa trên phản hồi, thay vì hiểu biết đầy đủ về 3D.

Trên thang điểm WorldScore, do các nhà nghiên cứu tại Stanford phát triển để đánh giá các hệ thống tạo thế giới 3D, Voyager đạt 77,62 điểm. Báo cáo của Tencent ghi nhận đây là điểm số cao nhất trong số các mô hình tương đương, vượt qua WonderWorld với 72,69 điểm và CogVideoX-I2V với 62,15 điểm. Voyager vượt trội về tính nhất quán trong phong cách và chất lượng chủ quan, nhưng lại kém WonderWorld về khả năng điều khiển camera.

Mặc dù điểm số rất hứa hẹn, hệ thống này vẫn đi kèm một lưu ý đáng chú ý: một số hạn chế về cấp phép. Giống như các mô hình khác trong bộ Hunyuan của Tencent, Tencent cấm sử dụng Voyager tại Liên minh Châu Âu, Vương quốc Anh hoặc Hàn Quốc. Công ty cũng yêu cầu các thỏa thuận bổ sung cho việc triển khai thương mại phục vụ hơn 100 triệu người dùng hoạt động hàng tháng.

Chất lượng đầu ra là một bước tiến vượt bậc cho các môi trường do AI tạo ra. Tuy nhiên, chi phí tính toán cao và những hạn chế hiện tại về tính nhất quán của cảnh cho thấy có thể phải mất một thời gian nữa các hệ thống như Voyager mới có thể hỗ trợ trải nghiệm tương tác hoàn toàn theo thời gian thực. Hiện tại, hệ thống này có lẽ có giá trị nhất đối với quy trình tạo video và tái tạo 3D thử nghiệm.

Tuệ Minh

Nguồn Tri Thức & Cuộc Sống : https://kienthuc.net.vn/mo-hinh-ai-bien-mot-buc-anh-duy-nhat-thanh-the-gioi-3d-post1567079.html