Công cụ AI mới tạo ảnh chất lượng cao, nhanh gấp 9 lần

Công cụ AI mới tạo ảnh chất lượng cao, nhanh gấp 9 lần
3 ngày trướcBài gốc
Hình ảnh phi hành gia cưỡi ngựa được kết hợp từ hai loại mô hình AI tạo sinh. Ảnh: MIT News
Khi tốc độ và chất lượng không còn phải đánh đổi
Trong lĩnh vực tạo ảnh bằng AI, hiện nay có hai phương pháp chính:
Mô hình khuếch tán (diffusion models) cho phép tạo ra hình ảnh chi tiết, sắc nét. Tuy nhiên, chúng rất chậm và tiêu tốn nhiều tài nguyên tính toán do phải thực hiện hàng chục bước xử lý để loại bỏ nhiễu khỏi từng điểm ảnh.
Mô hình tự hồi quy (autoregressive models) lại hoạt động nhanh hơn nhiều nhờ vào khả năng dự đoán từng phần nhỏ của hình ảnh theo trình tự. Nhưng chúng thường cho ra ảnh kém chi tiết, dễ mắc lỗi.
HART (hybrid autoregressive transformer) kết hợp cả hai, mang lại "cái tốt nhất của cả hai". Trước hết, nó dùng mô hình tự hồi quy để dựng nên phần tổng thể của hình ảnh bằng cách mã hóa nó thành các token rời rạc. Sau đó, mô hình khuếch tán nhẹ tiếp tục xử lý để bổ sung các token dư (residual tokens) - phần thông tin chi tiết bị mất trong quá trình mã hóa.
Kết quả là hình ảnh tạo ra có chất lượng tương đương (hoặc hơn) các mô hình khuếch tán tiên tiến nhất, nhưng quá trình xử lý nhanh hơn gấp 9 lần và sử dụng ít hơn 31% tài nguyên tính toán.
Cách tiếp cận mới giúp tạo ảnh chất lượng với tốc độ cao
Một trong những điểm mới đáng chú ý của HART là cách nó giải quyết bài toán mất thông tin khi dùng mô hình tự hồi quy. Việc chuyển đổi hình ảnh thành các token rời rạc giúp tăng tốc, nhưng cũng làm mất chi tiết quan trọng như viền vật thể, nét mặt, tóc, mắt, miệng…
Giải pháp của HART là để mô hình khuếch tán chỉ tập trung vào việc "vá lại" những phần chi tiết này thông qua token dư. Và vì phần việc đã được mô hình tự hồi quy làm xong gần hết, nên mô hình khuếch tán chỉ cần 8 bước xử lý thay vì hơn 30 bước như trước.
"Mô hình khuếch tán có chức năng dễ thực hiện hơn, dẫ đến hiệu quả cao hơn," đồng tác giả Haotian Tang giải thích.
Cụ thể, sự kết hợp giữa mô hình transformer tự hồi quy với 700 triệu tham số và mô hình khuếch tán nhẹ với 37 triệu tham số giúp HART đạt hiệu suất như một mô hình khuếch tán có tới 2 tỷ tham số, nhưng nhanh gấp 9 lần.
Ban đầu, nhóm nghiên cứu cũng từng thử tích hợp mô hình khuếch tán vào giai đoạn đầu quá trình tạo ảnh, nhưng điều này làm tích tụ lỗi. Cách tiếp cận hiệu quả nhất chính là để mô hình khuếch tán xử lý bước cuối cùng và chỉ tập trung vào phần "còn thiếu" của hình ảnh.
Mở ra tương lai AI đa phương tiện
Hướng đi tiếp theo của nhóm nghiên cứu là xây dựng các mô hình AI thị giác - ngôn ngữ thế hệ mới dựa trên kiến trúc HART. Vì HART có khả năng mở rộng và thích nghi với nhiều loại dữ liệu (đa phương thức), họ kỳ vọng có thể áp dụng nó vào việc tạo video, dự đoán âm thanh và nhiều lĩnh vực khác.
Nghiên cứu này được tài trợ bởi nhiều tổ chức như Phòng thí nghiệm AI MIT-IBM Watson, Trung tâm Khoa học MIT-Amazon, Chương trình phần cứng AI của MIT và Quỹ Khoa học Quốc gia Hoa Kỳ. NVIDIA cũng tài trợ hạ tầng GPU để huấn luyện mô hình.
(Theo MIT News)
Nguồn VietnamNet : https://vietnamnet.vn/cong-cu-ai-moi-tao-anh-chat-luong-cao-nhanh-gap-9-lan-2384719.html