Ảnh: Bloomberg.
Tháng trước, một người dùng đã đặt một câu hỏi cho Meta AI (nền tảng AI do Meta phát triển): “Có được phép sử dụng sách lậu để phát triển AI không?” Câu trả lời của máy là rõ ràng. “Sử dụng sách lậu để phát triển AI là không được. Đây là hành vi vi phạm nghiêm trọng luật bản quyền và có thể gây ra hậu quả đáng kể cho tác giả và nhà xuất bản”, AI này cảnh báo.
Tuy nhiên, chỉ vài ngày sau, thuật toán đã thay đổi. Khi trả lời cùng một câu hỏi, Meta AI đã né tránh: “Sử dụng sách lậu để đào tạo AI là một vấn đề phức tạp và câu trả lời không hề đơn giản. Trong khi một số công ty, như Meta, lập luận rằng việc họ sử dụng tài liệu có bản quyền phù hợp với nguyên tắc sử dụng hợp lý, thì những công ty khác lại cho rằng việc này vi phạm luật bản quyền”.
Các luật sư của Meta trên thực tế đang viện dẫn biện hộ “sử dụng hợp lý” trong những vụ kiện nhằm vào họ. Một trong những nguyên đơn là Richard Kadrey, tác giả ăn khách với loạt sách Sandman Slim, tuyên bố rằng "hành vi phi pháp" của Meta trong việc sử dụng sách lậu để đào tạo mô hình ngôn ngữ lớn (LLM) của công ty này đã xâm phạm tác phẩm của họ.
Về phần mình, Meta tuyên bố rằng dự án Llama (mô hình ngôn ngữ lớn Meta AI) của họ "có khả năng tùy chỉnh cao" với các văn bản đầu vào và do đó là sử dụng hợp lý.
Vụ kiện của Kadrey là một trong hơn 16 vụ kiện bản quyền liên quan đến các công cụ AI hiện lan rộng khắp hệ thống tòa án Mỹ, từ các nhạc sĩ kiện Anthropic vì sử dụng lời bài hát để đào tạo AI, các nghệ sĩ thị giác kiện Stability AI, The New York Times kiện Microsoft, đến Hiệp hội nhà văn Mỹ Authors Guild kiện OpenAI.
Trong khi các vụ kiện này đặt ra nhiều câu hỏi về giá trị vốn có của nghệ thuật và ý nghĩa của việc biến chúng thành hàng hóa, thì vụ kiện nhằm vào Meta đang thu hút sự chú ý đặc biệt. Trong nhiều tài liệu nội bộ, các nhà nghiên cứu Meta đã tối giản chất xám văn học thành một loại vật chất, tài sản thuần túy.
Các tài liệu vụ án đang hé lộ thêm nhiều diễn biến nội bộ trong Meta về phát triển AI. Ảnh: Medium.
Giá trị thương mại đã chiến thắng
Một nhà nghiên cứu đã viết rằng “Tiểu thuyết rất tuyệt” để đào tạo mô hình ngôn ngữ, nhưng trong kho sách lậu LibGen có quá ít, chỉ có khoảng “700GB”. Trong một bản ghi nhớ nội bộ, các nhà nghiên cứu chỉ ra một số vấn đề như: Số thứ tự trang bị lẫn vào nội dung chính, ngắt dòng không đúng hay thiếu "khoảng trắng" giữa các từ. Và "mục tiêu: có được càng nhiều tác phẩm dài càng tốt trong 4-6 tuần tới. Các bài viết, kịch bản phim, tạp chí và sách ở mọi thể loại".
Kadrey và cộng sự cho biết Meta “đã tải ít nhất 81,7 terabyte dữ liệu trên nhiều thư viện lậu thông qua trang Anna’s Archive, trong đó có ít nhất 35,7 terabyte dữ liệu từ Z-Library và LibGen”.
Đối với các tác giả như Carmen Maria Machado, không phải là nguyên đơn trong các vụ kiện nhưng có tác phẩm nằm trong số những cuốn sách bị LibGen sao chép trái phép, cảm xúc rất hỗn độn.
Bà chia sẻ: "Một thập kỷ cuộc đời tôi. Đó là công sức sáng tạo của tôi. Đó là trí óc của tôi. Tôi đã kiểm soát rất chặt chẽ các quyền mà tôi có đối với sách, tác phẩm, bản dịch và quyền làm phim của mình. Tất cả được quản lý rất cẩn thận, nhưng thực tế là một số công ty có thể đưa nó vào máy móc và không chịu hậu quả gì. Điều đó thật điên rồ đối với tôi đến nỗi tôi không thể hiểu hết được”.
Quá trình đấu tranh tâm lý
Theo tài liệu của tòa án, Meta đã tiến hành thảo luận sơ bộ với các nhà xuất bản về mức phí cấp phép tiềm năng. Tuy nhiên, họ nhận được những con số mà theo quan điểm của công ty, là "quá xa thực tế". Trong biên bản lời khai được công khai, bên bào chữa cho Meta mô tả các cuộc đàm phán là "mất nhiều thời gian của họ và cả của chúng tôi", và nói rằng do cấu trúc của ngành xuất bản sách, "nếu không viện dẫn quyền sử dụng hợp lý, Meta sẽ phải tiến hành các cuộc đàm phán cá nhân với hàng triệu tác giả" để "xác định từng cuốn sách và tác giả của chúng; xác định cách liên hệ với họ; xác định xem họ có sở hữu các quyền không bị ràng buộc hay không". Công ty tuyên bố "quy trình này thực tế là không thể đối với hàng trăm nghìn hoặc hàng triệu tác giả".
Trong khi đó, dữ liệu cần thiết để xây dựng các mô hình ngôn ngữ lớn là khổng lồ và theo thư từ nội bộ của công ty, không thể đạt được nếu không có sách. Và điều này đã gây ra cuộc tranh luận và thảo luận nội bộ kéo dài nhiều năm.
Vào tháng 10/2022, một nhà nghiên cứu cao cấp, Melanie Kambadur, đã viết trong một tin nhắn gửi cho đồng nghiệp, "Tôi không nghĩ chúng ta nên sử dụng tài liệu vi phạm bản quyền. Tôi thực sự cần phải vạch ra ranh giới ở đây".
Cũng đã có nhiều dữ liệu nội bộ nêu ra những lo ngại về việc sử dụng LibGen, chẳng hạn như rủi ro về chính sách, bao gồm cả mối quan tâm của các nhà lập pháp Mỹ "về việc các nhà phát triển AI sử dụng các trang web vi phạm bản quyền" và rằng "nếu có thông tin trên truyền thông cho rằng chúng ta sử dụng một tập dữ liệu mà chúng ta biết là vi phạm bản quyền, chẳng hạn như LibGen, điều này có thể làm suy yếu vị thế đàm phán của chúng ta với các cơ quan quản lý".
Nhưng họ đã đi đến kết luận: "Trong mọi trường hợp, chúng ta sẽ không tiết lộ công khai rằng chúng ta sử dụng LibGen. Dù vậy, vẫn có nguy cơ là các bên bên ngoài có thể suy ra việc chúng ta sử dụng tập dữ liệu này".
Lập trường này dường như cũng được lãnh đạo của Meta thực thi. Trong một lời khai, CEO của Meta Zuckerberg "tuyên bố không biết gì về LibGen hoặc bất kỳ sự tham gia nào vào việc sử dụng nó".
Hơn nữa, Meta cho biết, trong khi công ty "đã đầu tư hàng trăm triệu USD vào phát triển LLM", họ không thấy có giá trị thị trường nào trong việc mua bản quyền sách từ các tác giả vì "phải có thứ gì đó có giá trị để trao đổi. Trong khi đó, các tác phẩm của nguyên đơn, khi xét từng tác phẩm, không phải là các dữ liệu đào tạo có giá trị kinh tế".
Minh Hoa