Sự việc này không chỉ làm lung lay tận gốc rễ những lời khẳng định vững chắc từ các tập đoàn công nghệ rằng hệ thống của họ không hề lưu trữ các tác phẩm có bản quyền, mà còn mở ra một chương mới đầy rủi ro trên mặt trận pháp lý.
Hàng loạt nghiên cứu chuyên sâu mới nhất đã chỉ ra rằng các mô hình ngôn ngữ lớn từ OpenAI, Google, Meta, Anthropic và xAI thực chất đang "ghi nhớ" một lượng dữ liệu đào tạo khổng lồ, vượt xa những gì giới chuyên môn từng dự đoán. Lỗ hổng chí mạng này đe dọa trực tiếp đến lập luận phòng thủ cốt lõi của toàn bộ ngành công nghiệp AI, đẩy họ vào nguy cơ gánh chịu những án phạt hàng tỷ đô la trước hàng chục vụ kiện vi phạm quyền sở hữu trí tuệ đang bùng nổ trên toàn thế giới.
Khả năng sao chép nguyên bản và "cú sốc" của giới nghiên cứu
Từ trước đến nay, các gã khổng lồ công nghệ luôn bảo vệ quan điểm rằng hiện tượng "ghi nhớ" dữ liệu nguyên bản hoàn toàn không xảy ra bên trong các hệ thống trí tuệ nhân tạo. Ngành công nghiệp này luôn bám víu vào nguyên tắc "sử dụng hợp lý", lập luận mạnh mẽ rằng công nghệ của họ chỉ học hỏi và chuyển đổi các tác phẩm gốc thành một thứ gì đó mới mẻ, mang ý nghĩa hoàn toàn khác biệt.
Điển hình như trong một bức thư gửi Văn phòng Bản quyền Mỹ vào năm 2023, Google đã tự tin tuyên bố rằng không có bất kỳ bản sao nào của dữ liệu đào tạo, dù là văn bản, hình ảnh hay các định dạng khác, tồn tại bên trong chính mô hình của họ.
Hệ thống AI (bên trái) đang "ghi nhớ" và tạo ra một bản sao chính xác của một trang sách có bản quyền (bên phải), khiến nhà nghiên cứu vô cùng kinh ngạc
Thế nhưng, một nghiên cứu đột phá được công bố vào tháng trước bởi các nhà khoa học hàng đầu tại Đại học Stanford và Đại học Yale đã phơi bày một sự thật hoàn toàn trái ngược. Các nhà nghiên cứu đã thiết kế các câu lệnh có chủ đích để thử nghiệm các mô hình ngôn ngữ lớn từ OpenAI, Google, Anthropic và xAI.
Kết quả thu được vô cùng chấn động khi các hệ thống này ngoan ngoãn tạo ra hàng ngàn từ vựng được trích xuất hoàn hảo từ 13 cuốn sách nổi tiếng, bao gồm những kiệt tác văn học như Trò chơi vương quyền, Đấu trường sinh tử và Người Hobbit.
Mức độ "học vẹt" của các siêu AI hiện đại thực sự vượt sức tưởng tượng. Chỉ bằng cách yêu cầu mô hình hoàn thành các câu văn dang dở từ một cuốn sách, hệ thống Gemini 2.5 đã "tuôn" ra tới 76,8% nội dung cuốn Harry Potter và Hòn đá Phù thủy với mức độ chính xác cực cao, trong khi Grok 3 cũng không hề kém cạnh khi tái tạo được 70,3% nội dung. Đáng chú ý hơn, nhóm nghiên cứu còn có thể trích xuất gần như toàn bộ một cuốn tiểu thuyết với độ chính xác tuyệt đối từ mô hình Claude 3.7 Sonnet của Anthropic thông qua kỹ thuật "bẻ khóa" (jailbreaking), ép hệ thống phải phớt lờ các rào cản an toàn được cài đặt sẵn.
Phát hiện này nối tiếp một nghiên cứu từ năm ngoái, trong đó chỉ ra rằng các mô hình mã nguồn mở như Llama của Meta đã ghi nhớ những phần khổng lồ của các cuốn sách cụ thể trong kho dữ liệu đào tạo của chúng. Giới chuyên gia AI trước đây từng nuôi hy vọng rằng các hệ thống khép kín, vốn được trang bị nhiều lớp bảo mật tinh vi để ngăn chặn việc tạo ra nội dung không mong muốn, sẽ miễn nhiễm với hiện tượng sao chép quy mô lớn này.
A. Feder Cooper, một nhà nghiên cứu tại Đại học Yale và là thành viên của dự án, đã phải thừa nhận sự kinh ngạc tột độ của giới khoa học khi chứng kiến các siêu AI có thể ghi nhớ toàn bộ văn bản bất chấp hàng loạt rào cản bảo vệ đã được thiết lập. Cho đến nay, các kỹ sư vẫn chưa thể giải mã triệt để lý do tại sao các mô hình ngôn ngữ lớn lại ghi nhớ những thứ xuất hiện trong dữ liệu đào tạo của chúng, và cũng không rõ chính xác có bao nhiêu phần trăm dữ liệu gốc đang âm thầm ẩn nấp trong các câu trả lời mà chúng tạo ra hàng ngày.
Hệ lụy tài chính khổng lồ và ngã rẽ của ngành công nghệ
Căn bệnh "học vẹt" của AI không chỉ dừng lại ở những tranh cãi mang tính học thuật mà đang kích hoạt một "cơn địa chấn" pháp lý có khả năng định hình lại toàn bộ ngành công nghiệp. Cerys Wyn Davies, đối tác chuyên về sở hữu trí tuệ tại công ty luật Pinsent Masons, nhận định rằng những phát hiện nghiên cứu này là một đòn giáng mạnh mẽ vào những ai luôn lớn tiếng khẳng định mô hình AI không lưu trữ hay tái tạo bất kỳ tác phẩm có bản quyền nào. Vấn đề cốt lõi về việc mô hình có thực sự ghi nhớ dữ liệu hay không đang trở thành tử huyệt định đoạt thắng thua trong các cuộc chiến pháp lý gay gắt.
Thực tế đã chứng minh sự khắc nghiệt của các phán quyết từ tòa án. Năm ngoái, một tòa án tại Mỹ đã kết luận rằng việc Anthropic đào tạo các mô hình trên một số nội dung có bản quyền có thể được xem xét là sử dụng hợp lý vì nó mang tính chất chuyển đổi. Tuy nhiên, cùng chính tòa án đó đã giáng một đòn chí mạng khi phán quyết rằng hành vi lưu trữ các tác phẩm vi phạm bản quyền là một sự vi phạm bản chất và không thể cứu vãn.
Các công ty công nghệ lớn sẽ chịu hậu quả khi bị đóng dấu "vi phạm bản quyền"
Hệ quả tất yếu là tập đoàn AI này đã phải ngậm đắng nuốt cay chi ra khoản tiền khổng lồ lên tới 1,5 tỉ USD để dàn xếp vụ kiện. Làn sóng pháp lý cũng lan rộng sang tận châu Âu khi một phán quyết mang tính bước ngoặt tại Đức vào tháng 11 năm ngoái đã kết tội OpenAI vi phạm bản quyền vì mô hình của họ đã ghi nhớ lời bài hát một cách rành rọt. Vụ kiện do GEMA, hiệp hội đại diện cho các nhà soạn nhạc, người viết lời và nhà xuất bản khởi xướng, đang trở thành án lệ kinh điển đe dọa các công ty công nghệ tại Liên minh châu Âu.
Trước sức ép khổng lồ, các tập đoàn đang nỗ lực tự vệ. Anthropic lập luận rằng kỹ thuật bẻ khóa mà các nhà nghiên cứu tại Stanford và Yale sử dụng là phi thực tế đối với người dùng thông thường, và việc cố gắng trích xuất văn bản theo cách này còn đòi hỏi nhiều công sức hơn cả việc đi mua nội dung gốc. Công ty cũng kiên quyết bảo vệ quan điểm rằng mô hình của họ không lưu trữ các bản sao của các tập dữ liệu cụ thể, mà chỉ đang học hỏi từ các mô hình và mối quan hệ giữa các từ ngữ.
Tuy nhiên, giáo sư Yves-Alexandre de Montjoye từ Đại học Imperial College London đã chỉ ra một nghịch lý: chính việc các phòng thí nghiệm AI phải cuống cuồng thiết lập các rào cản an toàn để ngăn dữ liệu đào tạo bị trích xuất đã tự tố cáo rằng họ hoàn toàn nhận thức được mức độ nghiêm trọng của vấn đề.
Sự cố này còn gióng lên hồi chuông cảnh báo về quyền riêng tư trong các lĩnh vực nhạy cảm như chăm sóc sức khỏe và giáo dục. Nếu AI có khả năng ghi nhớ nội dung sách, không ai dám chắc chúng sẽ không vô tình làm rò rỉ các hồ sơ bệnh án hay thông tin cá nhân được dùng trong quá trình huấn luyện.
Ben Zhao, giáo sư khoa học máy tính tại Đại học Chicago, đã đặt ra một câu hỏi mang tính triết lý sâu sắc về việc liệu các phòng thí nghiệm có thực sự bắt buộc phải sử dụng nội dung có bản quyền để tạo ra các hệ thống tiên tiến hay không. Theo ông, ranh giới giữa việc công nghệ có thể làm được và việc chúng ta có nên làm điều đó hay không vẫn là một rào cản lớn, và hệ thống pháp luật cuối cùng sẽ phải thể hiện sự kiên định để trở thành vị trọng tài tối cao định đoạt tương lai của toàn bộ quá trình phát triển này.
Bùi Tú