Wikipedia không còn là 'mỏ vàng miễn phí' cho các gã khổng lồ AI

Wikipedia không còn là 'mỏ vàng miễn phí' cho các gã khổng lồ AI
10 giờ trướcBài gốc
Wikipedia là nơi nhân loại đóng góp tri thức phi lợi nhuận
Tuy nhiên, khi bước sang tuổi 25, tổ chức đứng sau kho tàng này là Wikimedia Foundation đã quyết định thay đổi luật chơi trong kỷ nguyên trí tuệ nhân tạo. Trong một thông báo chính thức vào thứ Tư vừa qua, Wikimedia tiết lộ họ đã ký kết các thỏa thuận thương mại quan trọng với hàng loạt tên tuổi sừng sỏ nhất thung lũng Silicon như Amazon, Meta (công ty mẹ của Facebook) và "kỳ lân" tìm kiếm mới nổi Perplexity.
Động thái này đánh dấu chấm hết cho thời kỳ các công ty công nghệ tự do "cào" dữ liệu (web scraping) từ Wikipedia để huấn luyện AI mà không phải trả phí. Giờ đây, để các cỗ máy thông minh trở nên hiểu biết hơn, các tập đoàn công nghệ buộc phải trả tiền để tiếp cận nguồn tri thức được quản trị bởi con người một cách chính thống và bài bản.
Từ "bữa tiệc miễn phí" đến quan hệ đối tác cộng sinh
Trong nhiều năm qua, mối quan hệ giữa các công ty công nghệ lớn và Wikipedia có thể ví như một bữa tiệc buffet một chiều. Các kỹ sư tại Google, Amazon hay Meta đã xây dựng những mô hình ngôn ngữ lớn (LLM) trị giá hàng tỷ đô la bằng cách cho chúng "học" từ hàng triệu bài viết trên Wikipedia.
Hành động này thường được thực hiện thông qua kỹ thuật "web scraping", tức là dùng các bot tự động quét và sao chép dữ liệu từ trang web công khai. Mặc dù Wikipedia là nguồn mở, nhưng việc khai thác quy mô công nghiệp này đã đặt ra những câu hỏi lớn về tính công bằng và gánh nặng hạ tầng mà tổ chức phi lợi nhuận này phải gánh chịu.
Sự ra đời và mở rộng của Wikimedia Enterprise chính là câu trả lời cho vấn đề này. Đây là một nhánh dịch vụ thương mại được thiết kế để cung cấp dữ liệu của Wikipedia cho các đối tác doanh nghiệp dưới dạng các luồng dữ liệu sạch, có cấu trúc và cập nhật theo thời gian thực, thay vì để họ tự ý cào dữ liệu một cách lộn xộn.
Các thỏa thuận mới được công bố với Amazon, Meta, Microsoft, Mistral AI và Perplexity thực chất đã được hoàn tất trong năm qua nhưng được giữ kín cho đến dịp kỷ niệm 25 năm này. Họ gia nhập cùng những cái tên tiên phong đã hợp tác từ năm 2022 như Google và công cụ tìm kiếm xanh Ecosia.
Đại diện của Wikimedia khẳng định rằng tất cả các tổ chức này đang sử dụng Wikimedia Enterprise để tích hợp nguồn tri thức được con người quản trị vào nền tảng của họ ở quy mô lớn. Điều này mang lại lợi ích kép. Về phía các công ty AI, họ nhận được nguồn dữ liệu chất lượng cao, giảm thiểu rủi ro AI bị "ảo giác" (hallucinations) hay đưa ra thông tin sai lệch, bởi dữ liệu từ Wikipedia luôn được cộng đồng biên tập viên kiểm chứng liên tục.
Về phía Wikimedia, dòng doanh thu từ các thỏa thuận này giúp đảm bảo sự tồn tại bền vững của dự án, duy trì máy chủ và hỗ trợ cộng đồng tình nguyện viên mà không cần phụ thuộc hoàn toàn vào tiền quyên góp từ người dùng cá nhân.
Người phát ngôn của Wikimedia Foundation nhấn mạnh một thực tế quan trọng rằng tri thức của Wikipedia đang là nguồn năng lượng vận hành các chatbot AI tạo sinh, các công cụ tìm kiếm và trợ lý ảo thông minh nhất hiện nay. Tương lai dài hạn của các công ty công nghệ và AI thực chất phụ thuộc vào việc nuôi dưỡng những dự án như Wikipedia.
Bởi lẽ, AI dù thông minh đến đâu cũng chỉ là cỗ máy tổng hợp và dự đoán; chúng cần nguồn tri thức gốc do con người tạo ra để làm nền tảng. Nếu Wikipedia suy yếu, các mô hình AI cũng sẽ trở nên nghèo nàn về thông tin và thiếu chính xác.
Cuộc chiến giành "sự thật" và thách thức từ các đối thủ AI
Bối cảnh của những cái bắt tay thương mại này diễn ra trong lúc vấn đề bản quyền và quyền sở hữu dữ liệu đang trở thành điểm nóng toàn cầu. Sự bùng nổ của AI tạo sinh đã khiến các nền tảng chứa nhiều nội dung do con người tạo ra (UGC) như Reddit hay Wikipedia phải suy nghĩ lại về giá trị tài sản của mình.
Nếu như Reddit đã chọn cách bán dữ liệu cho Google và đóng cửa API với các bên khác, thì Wikipedia chọn cách tiếp cận mềm mỏng hơn nhưng vẫn đảm bảo lợi ích thông qua Wikimedia Enterprise. Họ muốn khẳng định rằng dữ liệu do cộng đồng tạo ra có giá trị kinh tế và các công ty hưởng lợi từ nó phải có trách nhiệm chia sẻ lại nguồn lực.
Tuy nhiên, vị thế độc tôn của Wikipedia như một "nguồn sự thật" duy nhất đang bắt đầu bị thách thức bởi chính các ông trùm công nghệ, điển hình là Elon Musk. Năm ngoái, tỷ phú này đã tung ra Grokipedia, một đối thủ cạnh tranh trực tiếp hoạt động dựa trên trí tuệ nhân tạo.
Musk quảng bá Grokipedia như một giải pháp thay thế ít thiên kiến hơn và mang tinh thần "anti-woke" (chống lại sự thức tỉnh thái quá), ám chỉ rằng Wikipedia hiện tại đang bị chi phối bởi các quan điểm chính trị cánh tả.
Sự khác biệt cốt lõi nằm ở cơ chế vận hành. Trong khi từng dòng chữ trên Wikipedia được viết, tranh luận và chỉnh sửa bởi hàng triệu tình nguyện viên là con người, thì các mục từ trên Grokipedia, được đặt theo tên mô hình ngôn ngữ lớn Grok của công ty xAI, lại được tạo ra hoàn toàn bởi AI.
Đây là một cuộc đối đầu thú vị về triết lý: Liệu chúng ta nên tin vào tri thức được đồng thuận bởi cộng đồng con người với tất cả những ưu khuyết điểm của nó, hay tin vào sự tổng hợp lạnh lùng của thuật toán?
Việc các công ty như Amazon, Microsoft hay Meta chấp nhận trả tiền cho Wikimedia cho thấy, ít nhất ở thời điểm hiện tại, thung lũng Silicon vẫn đặt niềm tin vào con người. Họ hiểu rằng để AI không bị trôi dạt vào những thông tin bịa đặt, nó cần một mỏ neo vững chắc là nguồn dữ liệu được con người kiểm chứng.
Sự trỗi dậy của các mô hình như Grokipedia có thể tạo ra sự đa dạng, nhưng nó cũng làm nổi bật giá trị độc bản của Wikipedia. Trong một thế giới mà nội dung AI tạo ra ngày càng tràn ngập, "nhãn dán" con người (human-governed) của Wikipedia lại càng trở nên đắt giá hơn bao giờ hết.
Bùi Tú
Nguồn Một Thế Giới : https://1thegioi.vn/wikipedia-khong-con-la-mo-vang-mien-phi-cho-cac-ga-khong-lo-ai-244769.html