Dữ liệu đào tạo AI đã cạn kiệt

Dữ liệu đào tạo AI đã cạn kiệt
5 giờ trướcBài gốc
“Về cơ bản chúng ta đã dùng hết tổng lượng kiến thức tích lũy của con người trong quá trình đào tạo AI. Điều đó xảy ra vào năm ngoái”, tỷ phú Musk phát biểu trong một cuộc trò chuyện phát trực tiếp trên mạng xã hội X.
Phát ngôn trên lặp lại quan điểm mà nhà khoa học AI Ilya Sutskever (từng làm việc cho công ty OpenAI) bày tỏ vào tháng 12.2024. Thời điểm đó chuyên gia này đánh giá ngành đã đạt đến “mức đỉnh dữ liệu”, tình trạng thiếu dữ liệu đòi hỏi phải thay đổi cách thức đào tạo các mô hình trí tuệ nhân tạo.
Theo tỷ phú Musk, dữ liệu tổng hợp (synthetic data) - dữ liệu được tạo ra bởi chính AI - là giải pháp khả thi trong tương lai. Ông nói: “Với dữ liệu tổng hợp, AI sẽ tự phân loại và trải qua quá trình tự học”.
Dữ liệu tổng hợp đang được không ít “ông lớn” công nghệ như Microsoft, Meta, OpenAI, Anthropic sử dụng cho công tác đào tạo các mô hình hàng đầu do họ phát triển. Đơn vị nghiên cứu Gartner ước tính 60% dữ liệu dùng cho số dự án AI và phân tích năm ngoái là dữ liệu tổng hợp.
Chẳng hạn Phi-4 của Microsoft tiếp nhận cả dữ liệu thực tế lẫn dữ liệu tổng hợp. Gemma của Google và Claude 3.5 Sonnet của Anthropic cũng tương tự. Thời gian gần đây Meta bắt đầu nhập dữ liệu tổng hợp cho mô hình Llama.
Đào tạo bằng dữ liệu tổng hợp có nhiều lợi ích, đặc biệt là tiết kiệm chi phí. Công ty khởi nghiệp AI Writer cho biết mô hình Palmyra X 004 của mình chỉ tốn 700.000 USD để phát triển khi sử dụng dữ liệu tổng hợp.
Tuy nhiên loại dữ liệu này cũng tồn tại rủi ro. Một số nghiên cứu chỉ ra dữ liệu tổng hợp có thể dẫn đến hiện tượng “sụp đổ mô hình” (model collapse) – mô hình AI trở nên kém sáng tạo hơn và có xu hướng thiên lệch trong đầu ra. Nguyên nhân do dữ liệu tổng hợp chứa đựng thiên kiến lẫn hạn chế từ chính mô hình tạo ra nó, dẫn đến dữ liệu đầu ra bị ảnh hưởng.
Cẩm Bình
Nguồn Một Thế Giới : https://1thegioi.vn/du-lieu-dao-tao-ai-da-can-kiet-228104.html