Một cuộc trò chuyện kinh điển của Thung lũng Silicon diễn ra tại bữa tiệc ở thành phố San Francisco (Mỹ) gần đây. Chủ đề là những mô hình AI và chatbot nào là tốt nhất để sử dụng. Với một số người dự tiệc, yếu tố quan trọng để lựa chọn là mức độ “đạo đức” của nhà cung cấp AI.
Một người nói rằng dự định dùng dịch vụ Claude của Anthropic vì tin rằng công ty khởi nghiệp này hành xử có đạo đức. Anthropic quả thực đã làm được nhiều việc ấn tượng trong lĩnh vực an toàn AI. Thế nhưng, Alistair Barr (biên tập viên công nghệ toàn cầu của trang Insider) nhắc rằng Anthropic có các bot thu thập dữ liệu (crawler) thường xuyên quét các website nhưng lại gửi trả lại rất ít lượt truy cập. Những người kia đã bị sốc khi nghe điều đó.
Sau đó, Alistair Barr bắt đầu tìm kiếm dữ liệu đáng tin cậy để minh chứng cho một khía cạnh quan trọng nhưng ít được bàn đến của cuộc cách mạng AI. Trong khi chi tiêu hào phóng cho trung tâm dữ liệu, GPU (bộ xử lý đồ họa) và nhân tài, các hãng công nghệ lại tránh nói đến một thành phần cốt lõi khác của thành công AI: Dữ liệu.
Lý do là các hãng công nghệ không muốn trả tiền cho dữ liệu chất lượng cao do con người tạo, vốn cần thiết để huấn luyện mô hình, suy luận và tạo đầu ra AI. Thay vào đó, họ thả bot đi quét website và thu thập thông tin, hầu hết là miễn phí.
Trong quá khứ, các hãng công nghệ thường dẫn người dùng trở lại nguồn gốc của thông tin. Đây từng là “thỏa thuận lớn” của mạng web. Các trang web cho phép lấy dữ liệu miễn phí với sự ngầm hiểu rằng sẽ được nhận lại lượt truy cập giới thiệu, từ đó có thể duy trì hoạt động nhờ quảng cáo, thuê bao hoặc các cách kiếm tiền khác.
Các trang web cho phép lấy dữ liệu miễn phí với sự ngầm hiểu rằng họ sẽ nhận lại được lưu lượng truy cập giới thiệu và có thể kiếm tiền từ những nỗ lực của mình thông qua quảng cáo, đăng ký thuê bao và kỹ thuật khác.
Song trong kỷ nguyên AI tạo sinh, thỏa thuận này đang sụp đổ. Giờ đây, các chatbot AI đưa ra câu trả lời trực tiếp, khiến người dùng ít có động lực ghé thăm website gốc - nơi tạo ra nội dung ban đầu.
Cloudflare đã bắt đầu theo dõi hành vi này, bằng cách đo lường số lượt bot từ các hãng công nghệ lớn yêu cầu quét website và số lượt truy cập gửi trả về cho website.
Cloudflare là hãng công nghệ nổi tiếng Mỹ chuyên cung cấp hạ tầng internet, bảo mật và dịch vụ tăng tốc web. Cụ thể, Cloudflare hoạt động như mạng phân phối nội dung (CDN), tường lửa ứng dụng web (WAF), dịch vụ chống tấn công từ chối dịch vụ (DdoS) và nhiều công cụ tối ưu hóa hiệu suất website.
Nó đóng vai trò trung gian giữa máy chủ của website và người dùng, giúp tăng tốc tải trang bằng cách lưu và phân phối nội dung từ các máy chủ gần người dùng; bảo vệ website khỏi các cuộc tấn công mạng (DDoS, bot độc hại, khai thác lỗ hổng); giảm chi phí băng thông và tải cho máy chủ gốc.
Cloudflare hiện hỗ trợ vận hành khoảng 20% lưu lượng internet toàn cầu và phục vụ hàng triệu trang web, từ các blog nhỏ đến nền tảng lớn.
Tỷ lệ crawl-to-refer (thu thập so với giới thiệu truy cập) là thước đo hữu ích để xem các hãng công nghệ “lấy đi” bao nhiêu và “trả lại” bao nhiêu cho website. Ví dụ, tỷ lệ 100:1 nghĩa là bot của công ty đã quét các website 100 lần nhưng chỉ gửi trả lại 1 lượt truy cập.
Liệu đây có thể là cách để đánh giá mức độ “đạo đức” của các công ty trong kỷ nguyên AI? Câu trả lời sẽ tùy thuộc mỗi người. Dưới đây là dữ liệu tuần đầu tháng 9.
Ảnh: Insider
Như bạn thấy, Anthropic nổi bật hẳn lên: 26.500:1, tiếp theo là OpenAI với tỷ lệ 739:1. Theo dữ liệu Cloudflare, Anthropic thu thập nội dung website rất nhiều so với số lượt truy cập mà hãng gửi trả lại.
Điều này khớp với báo cáo của trang Insider từ khoảng một năm trước. Khi đó, bot từ Anthropic và OpenAI quét một số website nhiều đến mức làm chi phí băng thông do lưu lượng truy cập của họ tăng vọt.
Một lập trình viên web từng chứng kiến chi phí điện toán đám mây của khách hàng tăng gấp đôi chỉ trong vài tháng vì làn sóng bot AI này, trang Insider đưa tin năm ngoái.
Như vậy, các công ty AI không chỉ lấy đi rất nhiều nội dung từ các website và trả lại rất ít, mà còn khiến một số chủ sở hữu trang web phải trả hóa đơn cao hơn.
Phản hồi từ Anthropic
Insider hỏi Anthropic vì sao bot quét nhiều như vậy nhưng trả lại quá ít truy cập cho website. Công ty khởi nghiệp có trụ sở ở San Francisco nói không thể xác nhận tỷ lệ thu thập so với giới thiệu truy cập mà Cloudflare tính toán và cho rằng có thể có “vấn đề” trong phương pháp luận.
Anthropic cũng lưu ý rằng đã ra mắt tính năng tìm kiếm web cho chatbot Claude từ đầu năm nay. Theo Anthropic, điều đó đang tạo ra nhiều lưu lượng truy cập hơn cho website và con số này đang tăng nhanh.
OpenAI không phản hồi khi được Alistair Barr đề nghị bình luận. Perplexity trả lời chi tiết và thấu đáo, một phần tập trung vào khả năng mới ở bot trong việc đại diện cho ý định của người dùng, chẳng hạn mong muốn được tiếp cận tri thức trên web một cách tự do.
“Với nội dung công khai, các nhà xuất bản có thể chọn không công khai nội dung của họ. Về mặt dữ kiện, luật bản quyền luôn phân định ranh giới giữa sự thật và diễn đạt. Đó là nền tảng trong chính quá trình tìm hiểu của con người”, người phát ngôn Jesse Dwyer của Perplexity nói với Insider.
Theo Jesse Dwyer, khi thu thập dữ liệu từ website, công ty AI lấy các dữ kiện (ví dụ: ngày sinh của người nổi tiếng), nhưng không được phép sao chép nguyên văn cách diễn đạt sáng tạo của tác giả (ví dụ: đoạn tiểu sử viết về người đó với văn phong riêng).
Một lưu ý: Các con số tạo nên tỷ lệ thu thập so với giới thiệu truy cập chỉ tập trung vào website, không tính hoạt động trong các ứng dụng. Nếu tính cả ứng dụng, tỷ lệ có thể thấp hơn. Tuy nhiên, phương pháp này được áp dụng đồng đều cho tất cả công ty trong bảng xếp hạng này.
Anthropic và OpenAI dùng bot lấy nội dung website rất nhiều nhưng trả lại ít lượng truy cập - Ảnh: Insider
Theo dữ liệu Cloudflare, trong tuần đầu tháng 1, tỷ lệ thu thập so với giới thiệu truy cập của Google là 3,3:1. Con số đó nhảy vọt lên 18:1 trong tuần đầu tháng 4, rồi giảm nhẹ xuống 9:1 trong tuần đầu tháng 7.
Tỷ lệ 5:1 tuần đầu tháng 9 của Google có lẽ là nhờ công cụ tìm kiếm truyền thống, vốn vẫn hiển thị liên kết website trong nhiều kết quả. Tuy nhiên, Google ngày càng tích hợp câu trả lời kiểu chatbot AI vào dịch vụ tìm kiếm, thông qua AI Overviews và AI Mode (Chế độ AI).
Google cho rằng vẫn gửi lưu lượng đến các website và quan tâm đến sức khỏe của hệ sinh thái này.
CEO Cloudflare cố ngăn AI xóa sổ mô hình kinh doanh làm nền tảng cho web nhiều thập kỷ
Internet đang chuyển mình, từ thế giới do công cụ tìm kiếm thống trị sang bị chi phối bởi công cụ trả lời bằng AI. Đây là cơn địa chấn kinh tế đe dọa xóa sổ mô hình kinh doanh đã làm nền tảng cho web trong nhiều thập kỷ.
Trong khi hầu hết hãng công nghệ đều chạy theo làn sóng AI, ông Matthew Prince (Giám đốc điều hành Cloudflare) lên tiếng cảnh báo điều này.
Theo ông, AI hiện nay không chỉ tìm kiếm và liệt kê nguồn thông tin như Google Search trước đây mà tự tổng hợp và đưa thẳng câu trả lời cho người dùng. Điều này làm thay đổi hẳn cách vận hành và mô hình kinh tế của internet, nên cần một “thỏa thuận mới” giữa các bên liên quan (công ty AI, nhà sáng tạo nội dung, trang web).
Matthew Prince cố ngăn AI hủy diệt internet - Ảnh: Getty Images
Trong 25 năm qua, công cụ tìm kiếm của Google đã tạo ra một “bản đồ số” đưa người dùng đi săn tìm thông tin trên khắp web. Điều này tạo ra lưu lượng truy cập và hỗ trợ các thỏa thuận lớn trên internet: Các trang web cho phép Google sao chép dữ liệu của họ để đổi lấy lượt giới thiệu truy cập và giá trị đi kèm. Tiền từ quảng cáo và phí đăng ký đã hỗ trợ cho việc tạo ra nhiều nội dung hơn, từ đó giúp Google hiển thị kết quả tìm kiếm tốt hơn.
Trong kỷ nguyên AI, câu trả lời mới là điều mà nhiều người thực sự cần. Với các công cụ như AI Overviews và AI Mode, ChatGPT từ OpenAI hay Perplexity, người dùng nhận được câu trả lời tổng hợp, thường khiến họ không cần vào nguồn tin gốc.
“Công cụ trả lời hầu như không tạo ra lưu lượng truy cập. Công cụ tìm kiếm từng là động cơ tạo ra doanh thu trên web. Nếu không có lưu lượng truy cập, hệ sinh thái hiện tại - vốn dựa trên mô hình kinh doanh đó - sẽ sụp đổ”, Matthew Prince tuyên bố.
Khi tóm tắt nội dung bằng AI ngày càng phổ biến, Google hiện thu thập dữ liệu từ 9 trang web thì chỉ gửi 1 lượt truy cập thực đến một trong số các trang đó. Cách đây 10 năm, tỷ lệ là 2 trang web mà Google thu thập dữ liệu thì sẽ gửi lại 1 lượt truy cập, theo dữ liệu từ Barclays.
“Một năm trước, việc kiếm được lưu lượng truy cập từ Google đã khó gấp 5 lần. Giờ là khó gấp gần 10 lần”, Matthew Prince cho hay.
Tỷ lệ thu thập dữ liệu so với gửi lượt truy cập của OpenAI gần như ít hơn Google 100 lần, trong khi Anthropic thậm chí còn tệ hơn, Barclays cho hay.
"Chúng ta đang ở một bước ngoặt", CEO Cloudflare nhấn mạnh.
Matthew Prince là CEO hãng công nghệ lớn hiếm hoi cố giải quyết hoặc thậm chí quan tâm đến cuộc khủng hoảng đang lớn dần này. Lý do vì hầu hết hãng công nghệ lớn hay AI đều có động lực giảm nhẹ giá trị của dữ liệu trong mô hình, chatbot và sản phẩm liên quan. Các hãng này đang chi hàng tỉ USD cho GPU, trung tâm dữ liệu và các nhà nghiên cứu AI tài năng. Điều cuối cùng họ muốn làm là phải trả tiền cho dữ liệu.
Cloudflare ở một vị thế khác vì là hãng hạ tầng, bảo mật và phần mềm, giúp vận hành khoảng 20% internet. Công ty này hoạt động tốt khi web phát triển thịnh vượng và ngược lại.
“Đây là mối đe hiện hữu với internet. Nếu mô hình kinh doanh của internet sụp đổ, đây là tin xấu cho Cloudflare”, Matthew Prince thừa nhận.
Gần đây, Cloudflare thực hiện động thái táo bạo: Chặn bot AI theo mặc định và tạo ra hệ thống buộc các công ty AI phải trả tiền để truy cập nội dung website. Nói cách khác, Cloudflare biến mối quan hệ một chiều là các hãng công nghệ lấy dữ liệu miễn phí thành giao dịch thị trường.
Những động thái này đã gây tranh cãi. Guillermo Rauch, nhà sáng lập kiêm Giám đốc điều hành hãng cung cấp nền tảng đám mây Vercel, gọi đó là “chặn bước tiến”.
Perplexity bị Cloudflare cáo buộc tìm cách né hàng rào kỹ thuật số mới. Thế nhưng, Perplexity phản bác rằng Cloudflare “chặn quá mức”, làm suy giảm quyền lựa chọn của người dùng và cản trở các dịch vụ sáng tạo cạnh tranh với “những hãng lớn đã thành danh”.
“Ban lãnh đạo Cloudflare hoặc là hiểu sai nghiêm trọng về những điều cơ bản của AI, hoặc chỉ đơn thuần là muốn gây chú ý”, Perplexity viết trên blog.
Theo Matthew Prince, hầu hết hãng công nghệ đều khá sẵn sàng với đề xuất của Cloudflare rằng họ nên trả tiền cho dữ liệu để vận hành các công cụ trả lời AI.
“Mọi công ty AI có tầm nhìn dài hạn đều hiểu rằng đến một lúc nào đó họ sẽ phải trả tiền cho nội dung gốc. Google là công ty có tầm nhìn dài hạn. OpenAI cũng vậy. Bạn có muốn đánh cược xem công ty nào vẫn tồn tại sau 10 hoặc 20 năm nữa không? Google sẽ vẫn ở đây và OpenAI cũng vậy. Perplexity? Tôi nghi ngờ điều đó”, doanh nhân 50 tuổi người Mỹ nói.
Sơn Vân