Nội dung thuần con người nằm trong danh sách khan hiếm trong thời kỳ AI. Ảnh: Advertising Week.
Sự xuất hiện của ChatGPT năm 2022 kéo theo cuộc bùng nổ nội dung trí tuệ nhân tạo khắp Internet. Theo dự đoán của Gartner, đến năm 2026, 90% nội dung trên Internet sẽ được tạo bởi AI, bao gồm văn bản, hình ảnh và video.
AI vốn được huấn luyện để hiểu suy nghĩ con người. Tuy nhiên, nếu không còn dữ liệu thuần do con người tạo ra, công nghệ này sẽ sử dụng thông tin cũ của chính bản thân mình, giống như một máy photocopy tự sao chép lại chính nó.
Nhiều nhà nghiên cứu so sánh những nội dung nguyên bản do con người với một loại thép “sạch” trong thời hiện đại, tương đương với sự quý hiếm, khó tìm. Họ lo sợ rằng nếu không ai lưu trữ bản sao của dữ liệu từ trước năm 2022, Internet sẽ mất đi hoàn toàn sự trong sạch của nó.
Thảm họa lịch sử tái hiện
Trong kỷ nguyên hậu hạt nhân, các nhà khoa học phát hiện ra tất cả thép được sản xuất sau 1945 đều bị nhiễm bẩn. Bom nguyên tử đã làm bầu khí quyển nhiễm phóng xạ, lan sang cả kim loại được sản xuất trong môi trường đó.
Điều này dẫn đến phần lớn thép không thể sử dụng cho thiết bị đo lường chính xác cao như máy đếm phóng xạ Geiger và nhiều cảm biến nhạy cảm khác. Giải pháp là thu hồi thép cũ từ các chiến hạm bị đánh chìm trước thời chiến tranh, nằm sâu dưới đáy đại dương, nơi không bị ảnh hưởng bởi bụi phóng xạ.
Đối với nhà phát triển AI, hầu hết mô hình được huấn luyện bằng kho dữ liệu khổng lồ từ con người thu thập trên Internet. Nhưng nếu phần mềm hôm nay lại học từ văn bản do chính nó tạo ra trong quá khứ, các mô hình sẽ có nguy cơ sụp đổ, làm loãng đi tính nguyên bản và chiều sâu.
Chiến hạm bị đắm Hindenburg thời Thế chiến I đã được trục vớt. Ảnh: Reuters Connect.
Điều này khiến nội dung do con người tạo ra, đặc biệt là từ trước năm 2022, trở nên giá trị hơn, theo ông Will Allen, phó chủ tịch của Cloudflare, đơn vị vận hành một trong những mạng Internet lớn nhất thế giới. Ông cho rằng chúng giúp các mô hình AI, cũng như toàn xã hội, bám vào một thực tại chung. Mọi thứ sẽ phức tạp lên nếu không còn nền tảng đó.
Nền tảng đặc biệt quan trọng trong lĩnh vực kỹ thuật cao như y học, pháp luật hay thuế vụ. Ví dụ, một bác sĩ nên dựa vào nội dung được viết bởi chuyên gia con người, nghiên cứu thực tế, chứ không phải từ nguồn do AI tạo ra.
Hiểm họa này cũng đang đến gần với thực tế. Một năm sau ChatGPT ra mắt, nhà đầu tư mạo hiểm Paul Graham kể rằng ông đã phải tìm kiếm nội dung cũ hơn cho một tra cứu đơn giản để tránh “mồi SEO do AI tạo ra”. Malte Ubl, Giám đốc công nghệ của startup AI Vercel đã phản hồi rằng Graham thực chất đang lọc Internet để tìm nội dung “trước khi bị ô nhiễm bởi AI”.
Matt Rickard, một cựu kỹ sư của Google, cũng đồng tình. Anh viết trong một bài blog từ 2023, cho rằng AI lấy dữ liệu từ Internet, nhưng ngày càng nhiều nội dung trên đó lại do chính AI tạo ra. “Đầu ra của chatbot rất khó phát hiện. Việc tìm ra dữ liệu huấn luyện chưa bị AI can thiệp sẽ ngày càng khó khăn hơn”, Rickard giải thích.
Công cuộc “mò thép đáy biển”
Câu trả lời cho vấn đề trên nằm ở việc bảo tồn phiên bản dữ liệu do con người tạo ra trước thời kỳ bùng nổ AI. Một trong những người tiên phong là John Graham-Cumming, thành viên hội đồng quản trị và Giám đốc công nghệ của Cloudflare.
Dự án của ông, trang web LowBackgroundSteel.ai, liệt kê các bộ dữ liệu, đường dẫn và phương tiện truyền thông tồn tại trước năm 2022. Một ví dụ đưa ra có Arctic Code Vault của GitHub, kho lưu trữ phần mềm mã nguồn mở được chôn trong một mỏ than bỏ hoang ở Na Uy, lưu giữ từ tháng 2/2020.
Dự án bảo tồn dữ liệu con người của Graham-Cumming. Ảnh: Lowbackgroundsteel.ai.
Một nguồn dữ liệu khác mà ông liệt kê là “wordfreq”, dự án theo dõi tần suất sử dụng các từ trên mạng. Nhà ngôn ngữ học Robyn Speer đã duy trì đến năm 2021.
“AI tạo sinh đã làm ô nhiễm dữ liệu”, Speer cho biết. Cô đưa ra một ví dụ là ChatGPT quá ám ảnh với từ “delve”, dẫn đến sự xuất hiện nhiều hơn trong thời gian gần đây. Điều này làm lệch dữ liệu trên Internet, khiến nó trở nên kém tin cậy hơn để phản ánh cách con người viết và suy nghĩ.
Các mô hình AI được huấn luyện một phần trên nội dung tổng hợp có thể tăng tốc độ làm việc và loại bỏ sự nhàm chán trong các công việc sáng tạo. Tuy nhiên, không chỉ dừng lại ở hiệu suất, người dùng có thể sẽ phải dựa vào nội dung nguyên bản con người để đưa ra đánh giá đúng, giống như sử dụng “thép nền thấp” để đo đạc chính xác.
Các nhà khoa học đã phát triển nhiều phương pháp khác nhau để sản xuất thép sử dụng oxy tinh khiết. Theo Business Insider, điều này nhắc nhở chúng ta rằng việc bảo tồn quá khứ có thể là cách duy nhất để xây dựng một tương lai đáng tin cậy.
Nhật Tường