Thế giới đang 'mở cửa' cho văn bản, dữ liệu huấn luyện AI đến đâu?

Thế giới đang 'mở cửa' cho văn bản, dữ liệu huấn luyện AI đến đâu?
2 giờ trướcBài gốc
Con dao hai lưỡi với học thuyết “sử dụng hợp lý” tại Mỹ
Tại Mỹ, cái nôi của các mô hình AI hàng đầu thế giới (như ChatGPT của OpenAI, Gemini của Google), nghịch lý thay lại không có một đạo luật riêng biệt nào được ban hành cụ thể cho việc huấn luyện AI. Thay vào đó, hệ thống pháp lý Mỹ dựa vào học thuyết lâu đời và linh hoạt bậc nhất của hệ thống Thông luật (common law) đó là “sử dụng hợp lý” (fair use) theo điều 107 Đạo luật Bản quyền (Copyright Act 1976).
Đây là cách tiếp cận mở, không quy định cứng nhắc hành vi nào được phép hay không, mà cho phép tòa án xem xét tính hợp pháp của từng vụ việc cụ thể dựa trên bốn yếu tố cân nhắc:
(i) Mục đích và tính chất sử dụng: Liệu việc sử dụng có mang tính thương mại hay phi lợi nhuận? Có mang tính chuyển hóa hay không?
(ii) Bản chất của tác phẩm gốc: Tác phẩm mang tính hư cấu sáng tạo hay chỉ là dữ liệu thực tế?
(iii) Khối lượng và thực chất của phần được sử dụng: AI đã sao chép bao nhiêu phần trăm? Có lấy đi “trái tim” của tác phẩm không?
(iv) Tác động đến thị trường tiềm năng: Sản phẩm AI có thay thế hoặc cạnh tranh với tác phẩm gốc không?
Nhưng sự linh hoạt này đang trở thành con dao hai lưỡi đối với chính các doanh nghiệp công nghệ Mỹ.
Về ưu điểm, học thuyết sử dụng hợp lý, đặc biệt là khái niệm “sử dụng có tính chuyển đổi” (transformative use), được xem là bệ phóng giúp Mỹ dẫn đầu về công nghệ trong nhiều thập niên qua. Lập luận chính của các công ty AI (như OpenAI, Google) là AI không sao chép tác phẩm để thưởng thức giá trị nghệ thuật của nó, mà AI đọc tác phẩm để trích xuất các quy luật thống kê, cấu trúc ngôn ngữ và tạo ra tri thức mới, được xem là một mục đích hoàn toàn khác biệt và không cạnh tranh với mục đích ban đầu của tác phẩm. Dưới góc nhìn này, hoạt động khai thác dữ liệu văn bản (TDM) là một bước kỹ thuật trung gian cần thiết để tạo ra công nghệ mới phục vụ xã hội.
Nếu tòa án phán quyết rằng AI gây tổn hại thị trường của tác giả hoặc cạnh tranh trực tiếp với báo chí, các công ty công nghệ sẽ đối mặt với rủi ro pháp lý và các khoản bồi thường có thể lên tới hàng tỉ đô la Mỹ, chưa kể đến việc phải hủy bỏ các mô hình đã huấn luyện. Sự bất định của “sử dụng hợp lý” biến hoạt động đầu tư AI tại Mỹ thành một canh bạc pháp lý.
Điểm yếu chí tử của mô hình này là tính dự báo thấp và sự phụ thuộc hoàn toàn vào phán quyết của tòa án. Trong bối cảnh AI tạo sinh (GenAI) hiện nay, các mô hình không chỉ “phân tích” mà còn có khả năng “tạo ra” nội dung mới giống hệt hoặc mô phỏng phong cách của tác phẩm gốc, lá chắn sử dụng hợp lý đang đứng trước nguy cơ sụp đổ. Vụ kiện đình đám giữa The New York Times với OpenAI là minh chứng rõ nét nhất cho rủi ro này.
Tờ báo này đưa ra bằng chứng cho thấy ChatGPT có thể ghi nhớ và tái tạo lại gần như nguyên văn các bài báo điều tra độc quyền, lập luận về sử dụng chuyển đổi trở nên yếu ớt. Nếu tòa án phán quyết rằng AI gây tổn hại thị trường của tác giả hoặc cạnh tranh trực tiếp với báo chí, các công ty công nghệ sẽ đối mặt với rủi ro pháp lý và các khoản bồi thường có thể lên tới hàng tỉ đô la Mỹ, chưa kể đến việc phải hủy bỏ các mô hình đã huấn luyện. Sự bất định của “sử dụng hợp lý” biến hoạt động đầu tư AI tại Mỹ thành một canh bạc pháp lý.
Nhật Bản - “thiên đường” cho AI và triết lý không hưởng thụ
Nếu Mỹ chọn sự linh hoạt đầy rủi ro thì Nhật Bản lại chọn con đường táo bạo và quyết liệt nhất, đó là mở cửa tối đa. Với tham vọng xây dựng xã hội 5.0 và quyết tâm lấy lại vị thế công nghệ, Nhật Bản đã sửa đổi Luật Bản quyền năm 2018 (cụ thể là điều 30-4), tạo ra cơ chế ngoại lệ cho TDM cởi mở bậc nhất thế giới.
Triết lý lập pháp của Nhật Bản rất rõ ràng và độc đáo, dựa trên sự phân tách giữa “cảm thụ con người” và “xử lý máy móc”. Nguyên tắc “không hưởng thụ” (Non-enjoyment purpose) của pháp luật Nhật Bản cho phép khai thác tác phẩm dưới mọi hình thức (sao chép, phân tích, xử lý, chuyển đổi) miễn là việc sử dụng đó “không nhằm mục đích thưởng thức tư tưởng hoặc tình cảm được thể hiện trong tác phẩm”. Người Nhật quan niệm rằng bản quyền bảo vệ lợi ích của tác giả từ việc con người thưởng thức tác phẩm. Máy móc không có cảm xúc, không “thưởng thức” nghệ thuật như con người, do đó việc máy đọc dữ liệu để phân tích thông tin về bản chất không xâm phạm vào thị trường tiêu thụ tác phẩm gốc.
Quy định tại điều 30-4 áp dụng rộng rãi cho cả mục đích thương mại lẫn phi thương mại, và cho phép thực hiện trên mọi loại tác phẩm. Quan trọng hơn, Nhật Bản không cho phép chủ sở hữu quyền bảo lưu (no opt - out) . Điều này đồng nghĩa với việc tác giả không có quyền ngăn cản AI học từ tác phẩm của mình, trừ khi việc đó gây thiệt hại bất hợp lý đến lợi ích của họ - một ngoại lệ rất hẹp.
Chính sách này đã biến Nhật Bản thành thiên đường mới cho AI và học máy, nơi bản quyền không được coi là rào cản và chi phí giao dịch để phát triển AI được giảm xuống mức thấp nhất.
Tuy nhiên, mô hình này đang đối mặt với sức ép lớn. Các vụ kiện gần đây như Yomiuri Shimbun v. Perplexity hay các tuyên bố từ giới nghệ sĩ Nhật Bản cho thấy sự lo ngại sâu sắc về việc quyền lợi của người sáng tạo bị hy sinh quá mức cho mục tiêu phát triển công nghệ. Dù vậy, thông điệp của Nhật Bản vẫn rất nhất quán, đó là ưu tiên tối đa cho dòng chảy dữ liệu để nuôi dưỡng AI.
Liên minh châu Âu (EU) chọn cân bằng lợi ích
Khác với sự tự do dựa trên sự linh hoạt của án lệ tại Mỹ hay sự mở cửa tối đa đầy táo bạo của Nhật Bản, châu Âu đã chọn cho mình một cách tiếp cận thận trọng, minh bạch và có cấu trúc chặt chẽ thông qua Chỉ thị về Bản quyền trong thị trường kỹ thuật số thống nhất (Directive (EU) 2019/790 - DSM Directive). Các nhà làm luật tại Brussels nhận thấy rằng hệ thống pháp lý cũ (như Chỉ thị InfoSoc 2001) đã thất bại trong việc giải quyết các thách thức của dữ liệu lớn, tạo ra sự phân mảnh pháp lý và kìm hãm sự đổi mới sáng tạo. Do đó, họ đã chủ động can thiệp bằng luật định để thiết lập lại trật tự mới, dựa trên nguyên tắc cân bằng lợi ích.
Mô hình của EU trong Chỉ thị DSM chia hoạt động TDM thành hai làn pháp lý rõ rệt, nhằm đảm bảo không ai bị bỏ lại phía sau trong nền kinh tế số:
Làn ưu tiên cho khoa học (điều 3 - ngoại lệ bắt buộc): Đây là ngoại lệ dành riêng cho các “tổ chức nghiên cứu” (như trường đại học, viện nghiên cứu) và các “tổ chức di sản văn hóa”. Tại làn này, các đơn vị được phép tự do sao chép, trích xuất và khai thác dữ liệu để phục vụ mục đích nghiên cứu khoa học mà không cần xin phép chủ sở hữu quyền. Điểm đặc biệt quan trọng mang tính “quyền lực công” của điều 3 là quyền này mang tính tuyệt đối và bắt buộc. Không một hợp đồng thương mại nào có thể vô hiệu hóa quyền này (điều 7(1) Chỉ thị DSM). Quy định này xuất phát từ triết lý rằng dòng chảy tri thức phục vụ lợi ích công cộng không bao giờ được phép bị chặn đứng bởi các rào cản pháp lý tư nhân hay các điều khoản hợp đồng bất bình đẳng. Nó đảm bảo rằng các nhà khoa học châu Âu có thể sử dụng các công cụ hiện đại nhất để phân tích dữ liệu mà không sợ rủi ro pháp lý.
Làn thương mại (điều 4 - cơ chế opt-out): Nhận thức được rằng đổi mới sáng tạo không chỉ nằm trong tháp ngà khoa học mà còn đến từ khu vực tư nhân, điều 4 thiết lập một cơ chế mở rộng cho tất cả mọi người, bao gồm cả các doanh nghiệp thương mại và các startup AI. Điều 4 cho phép họ thực hiện TDM nếu có “quyền truy cập hợp pháp” vào dữ liệu .
Tuy nhiên, để bảo vệ quyền lợi kinh tế của các tác giả và nhà xuất bản trước sức mạnh của các tập đoàn công nghệ khổng lồ, EU đã thiết kế một chiếc phanh an toàn đó là cơ chế “opt-out” (quyền bảo lưu). Điều này có nghĩa là AI được phép học mặc định, trừ khi tác giả nói “không” một cách rõ ràng. Để cơ chế này khả thi trong kỷ nguyên Big Data, EU yêu cầu việc bảo lưu quyền đối với nội dung trực tuyến phải được thực hiện thông qua các biện pháp kỹ thuật “máy đọc được” (machine - readable means), ví dụ như tệp tin robots.txt hoặc các siêu dữ liệu gắn kèm tác phẩm. Quy định này nhằm giảm thiểu chi phí giao dịch, giúp các hệ thống thu thập dữ liệu tự động nhận diện được ranh giới pháp lý mà không cần con người can thiệp thủ công vào từng tác phẩm.
EU đang nỗ lực kiến tạo một hạ tầng pháp lý minh bạch thông qua nguyên tắc “mặc định cho phép, trừ khi bị cấm”. Đây là giải pháp thỏa hiệp thông minh vừa mở cửa cho dòng chảy dữ liệu để thúc đẩy công nghệ, vừa trao lại quyền kiểm soát cuối cùng (quyền phủ quyết) cho người sáng tạo nội dung, đảm bảo họ có vị thế đàm phán trong thị trường cấp phép dữ liệu.
Bài học nào cho người đi sau?
Nhìn vào bức tranh toàn cảnh, mỗi mô hình đều có sự đánh đổi chiến lược riêng, phản ánh ưu tiên chính sách của từng khu vực:
Đối với Mỹ, mô hình này cực kỳ linh hoạt, khuyến khích sự đột phá và thử nghiệm công nghệ, nhưng đẩy doanh nghiệp vào tình trạng bất định và rủi ro kiện tụng triền miên. Đây là cuộc chơi dành cho những “gã khổng lồ” có đủ tiềm lực tài chính để theo đuổi các vụ kiện tụng kéo dài.
Nhật Bản lại ưu tiên tuyệt đối cho tốc độ phát triển công nghệ và giảm thiểu chi phí đầu vào cho AI. Tuy nhiên, nó tiềm ẩn nguy cơ gây phản ứng tiêu cực từ giới sáng tạo trong nước và quốc tế, cũng như các rủi ro ngoại giao thương mại khi quyền lợi sở hữu trí tuệ bị thu hẹp tối đa .
Ngược lại, EU đạt được sự cân bằng và an toàn pháp lý cao nhất. Nó bảo vệ được các giá trị nhân văn (quyền của tác giả) trong khi vẫn mở đường cho công nghệ thông qua cơ chế thị trường (cấp phép hoặc opt-out).
Cuộc đua pháp lý này không chỉ định hình tương lai của AI tại mỗi quốc gia mà còn quyết định ai sẽ là người nắm giữ chìa khóa của nền kinh tế tri thức trong thập niên tới. Đối với Việt Nam, việc lựa chọn mô hình nào sẽ quyết định liệu chúng ta có thể vừa bảo vệ được tài sản trí tuệ, vừa không lỡ nhịp trong cuộc cách mạng AI toàn cầu hay không.
(*) Khoa Luật, Đại học Kinh tế TPHCM
Nguyễn Trung Tín - Phạm Nguyễn Yến Dương - Đỗ Thị Phương Thảo (*)
Nguồn Saigon Times : https://thesaigontimes.vn/the-gioi-dang-mo-cua-cho-van-ban-du-lieu-huan-luyen-ai-den-dau/