Tham vọng mua, quét hàng triệu đầu sách của một công ty AI

4 giờ trướcBài gốc

Ảnh: Unsplash.

Đầu năm 2024, các giám đốc tại công ty AI Anthropic đã đẩy mạnh một dự án bí mật và đầy tham vọng. "Dự án Panama hướng đến quét và tiêu hủy tất cả sách trên thế giới. Chúng tôi không muốn mọi người biết chúng tôi đang thực hiện dự án này", theo một tài liệu nội bộ được lưu trong hồ sơ pháp lý.

Bí mật phía sau AI Claude

Theo những văn bản này, trong vòng khoảng một năm, họ đã chi hàng chục triệu USD để mua và cắt bỏ gáy của hàng triệu cuốn sách, trước khi quét các trang sách để cung cấp nội dung cho mô hình AI nổi tiếng Claude.

Chi tiết về dự án Panama, với nhiều thông tin chưa từng được công bố, đã xuất hiện trong vụ kiện bản quyền của các tác giả sách nhằm vào Anthropic.

Các tài liệu mới này, cùng nhiều vụ kiện bản quyền trước đó cho thấy các công ty AI, với những cái tên lớn như Anthropic, Meta, Google và OpenAI, đã làm mọi cách để có được lượng dữ liệu khổng lồ nhằm "huấn luyện" AI.

Theo hồ sơ tòa án, sách được các công ty AI coi là loại dữ liệu quan trọng. Một trong những người đồng sáng lập Anthropic cho rằng việc huấn luyện AI bằng sách có thể dạy chúng "cách viết tốt" thay vì bắt chước "ngôn ngữ Internet chất lượng thấp".

Một email nội bộ của Meta năm 2024 cũng nói cần tiếp cận kho sách số để cạnh tranh với các đối thủ AI khác.

Tuy nhiên, những công ty này cho rằng việc xin phép các nhà xuất bản và tác giả là không khả thi. Do đó. Anthropic, Meta và các công ty khác đã tìm cách thu thập sách với số lượng lớn mà không có sự cho phép của tác giả.

Với Anthropic, hồ sơ tiết lộ người đồng sáng lập Ben Mann đã đích thân tải xuống một lượng lớn sách hư cấu và phi hư cấu từ "thư viện ngầm" LibGen trong khoảng thời gian 11 ngày vào tháng 6/2021.trình duyệt web của ông được đính kèm trong hồ sơ.

CEO công ty AI Anthropic Dario Amodei tại một sự kiện tháng 5/2025. Ảnh: New York Post.

Một năm sau, Mann cũng hoan nghênh sự ra mắt của một trang web mới có tên Pirate Library Mirror. Trang web này tuyên bố sở hữu cơ sở dữ liệu sách khổng lồ. Mann đã gửi liên kết trang web này cho các nhân viên của Anthropic với thông điệp "vừa kịp lúc!!!"

Trong khi Anthropic tuyên bố họ không sử dụng LibGen và Pirate Library Mirror, họ tìm đến những cuốn sách in có sẵn, quét nội dung lên không gian số và sau đó tiêu hủy những cuốn sách đã quét xong. Họ đã thuê Tom Turvey. Turvey từng là Giám đốc cấp cao tại Google và có vai trò đáng kể trong dự án gây tranh cãi hướng đến lập thư viện số khổng lồ của Google hai thập kỷ trước.

Anthropic ban đầu cân nhắc mua sách từ thư viện hoặc các hiệu sách cũ như hiệu sách nổi tiếng Strand ở thành phố New York.

Các nhân viên của Anthropic cũng đã thảo luận về việc tiếp cận các thư viện ở Mỹ, bao gồm thư viện công cộng New York hoặc "một thư viện mới nào đó đang thiếu kinh phí trầm trọng".

Hiện chưa rõ Anthropic thực hiện theo hướng nào. Khi được liên hệ qua email, người phát ngôn của Strand cho biết họ không bán sách cho Anthropic. Thư viện công cộng New York không trả lời yêu cầu bình luận.

Theo hồ sơ, Anthropic đã mua được hàng triệu cuốn sách, thường là theo lô, mỗi lô hàng chục nghìn cuốn. Họ dựa vào các nhà bán sách, bao gồm các nhà bán lẻ sách cũ Better World Books và World of Books có trụ sở tại Anh. Chưa rõ số lượng sách họ quét thành công nhưng một bản đề xuất cho biết Anthropic "tìm kiếm một nhà cung cấp dịch vụ quét tài liệu có kinh nghiệm để quét 500.000 - hai triệu cuốn sách trong sáu tháng".

Các trang sách sẽ được "quét trên máy tốc độ cao, chất lượng cao với cường độ lớn". Công ty quét sau đó “lên lịch với công ty tái chế để thu gom những cuốn sách đã quét xong".

Tranh cãi về hành vi vi phạm bản quyền của AI

Ed Newton-Rex, nhà soạn nhạc hiện điều hành một tổ chức phi lợi nhuận bảo vệ quyền của người sáng tạo, cho biết những tiết lộ trên cho thấy các công ty AI nợ người sáng tạo một món nợ lớn hơn.

Google, Microsoft và OpenAI, nhà sản xuất ChatGPT, cũng đang phải đối mặt với các vụ kiện bản quyền từ giới tác giả với những cáo buộc tương tự.

James Grimmelmann, Giáo sư luật về thế giới thông tin số tại Đại học công nghệ Cornell, cho biết những câu hỏi pháp lý trong các vụ kiện vẫn chưa được giải quyết.

Tuy nhiên, trong 2 phán quyết ban đầu, các thẩm phán cho rằng việc các công ty công nghệ sử dụng sách để đào tạo AI khi không xin phép tác giả hoặc nhà xuất bản có thể được coi là hợp pháp nếu xét theo luật "sử dụng hợp lý".

Vào tháng 6, Thẩm phán quận William Alsup phán quyết Anthropic có quyền sử dụng sách để phát triển AI vì họ đã điều chỉnh nội dung. Ông ví quá trình huấn luyện AI giống như việc giáo viên “dạy học sinh viết tốt".

Cùng tháng đó, trong vụ kiện Meta, Thẩm phán quận Vince Chhabria phán quyết các tác giả sách chưa chứng minh được AI có thể gây hại đến doanh số bán sách của họ.

Tuy nhiên, trong trường hợp của Anthropic, giới pháp lý nhận thấy công ty có thể đã vi phạm bản quyền của các tác giả khi tải xuống hàng triệu cuốn sách lậu trước khi khởi động dự án Panama.

Công ty đã đồng ý trả 1,5 tỷ USD cho giới xuất bản. Các tác giả có sách bị tải xuống trái phép có thể nhận được phần tiền bồi thường, ước tính khoảng 3.000 USD mỗi đầu sách.

Tuy nhiên, phán quyết liên quan đến phát triển AI đang nghiêng về các công ty. Theo Aparna Sridhar, Phó cố vấn pháp lý của Anthropic, thẩm phán cho rằng AI mang tính chuyển đổi. "Mô hình AI của Anthropic không sao chép hoặc thay thế sách mà hướng đến tạo ra một bước ngoặt và một cái gì đó khác biệt. Vấn đề của chúng tôi chỉ là về cách thức thu thập một số tài liệu".

Minh Hoa

Nguồn Znews : https://znews.vn/tham-vong-mua-quet-hang-trieu-dau-sach-cua-mot-cong-ty-ai-post1624051.html