Chỉ cách cầu Cổng Vàng (San Francisco, Mỹ) vài con phố, tòa nhà trắng với 8 cột trụ đồ sộ án ngữ phía ngoài đang lặng lẽ thực hiện sứ mệnh vĩ đại nhất lịch sử Internet: Lưu trữ hơn 1.000 tỷ trang web, tương đương hơn 100.000 terabyte dữ liệu, đủ để lấp đầy hàng chục triệu đĩa DVD.
Tòa nhà ấy từng là nhà thờ Christian Science có tuổi đời hơn trăm năm, nay đã trở thành trụ sở của Internet Archive - thư viện số phi lợi nhuận lớn nhất thế giới.
Trụ sở chính của Internet Archive tại thành phố San Francisco (Mỹ). (Ảnh: KALW)
Tiếng đọc Kinh Thánh khi xưa được thay bằng tiếng quạt tản nhiệt của hàng nghìn máy chủ đặt ngay giữa gian chính nhà thờ, dưới những ô cửa kính màu rực rỡ.
Chính tại đây, Wayback Machine - công cụ mà hàng triệu người dùng mỗi ngày - đang giữ lại từng khoảnh khắc Internet của gần 3 thập kỷ qua. Tháng 10 năm nay, kho dữ liệu khổng lồ này chính thức cán mốc một nghìn tỷ trang web được lưu trữ kể từ khi Brewster Kahle, người sáng lập Internet Archive, bắt đầu dự án này vào năm 1996.
Thời điểm đó, toàn bộ dữ liệu web 1 năm chỉ chiếm khoảng 2 terabyte, bằng dung lượng bộ nhớ của một chiếc iPhone ngày nay. Những giờ đây, mỗi ngày Wayback Machine lại thu thập thêm gần 150 terabyte, tương đương hàng trăm triệu trang web mới.
Brewster Kahle, với mái tóc bạc và nụ cười luôn thường trực như một giáo viên dạy khoa học đầy nhiệt huyết, chọn mua lại nhà thờ cũ chính vì nó giống biểu tượng của tổ chức mình: Những cột trụ Hy Lạp cổ đại - biểu tượng của sự trường tồn.
“Chúng tôi muốn nhắc mọi người rằng Internet cũng cần một 'đại thư viện Alexandria' của thời hiện đại”, ông nói khi ngồi trên chính băng ghế gỗ còn lại từ thời nhà thờ còn hoạt động.
Khu bảo tồn những “ký ức số”
Brewster Kahle, người sáng lập Internet Archive. (Ảnh: AP)
Wayback Machine không đơn thuần chụp ảnh màn hình các trang web đã và đang hoạt động, mà nó lưu lại toàn bộ mã nguồn HTML, CSS, JavaScript để có thể tái hiện lại trang web y hệt như thời điểm đó, dù máy chủ gốc đã tắt từ lâu.
Nhờ vậy, nhà báo có thể tìm lại bài viết bị gỡ, nhà nghiên cứu có thể đối chiếu thông tin mỗi nhiệm kỳ Chính phủ, hay người dùng Internet có thể xem lại những trang web yêu thích đã biến mất như Geocities, Gawker, MTV News.
Thậm chí, trong bối cảnh trí tuệ nhân tạo (AI) đang làm mờ ranh giới giữa thật và giả, Internet Archive còn có thêm một sứ mệnh khác: Lưu trữ luôn cả những nội dung do AI tạo ra.
Hàng ngày, đội ngũ kỹ sư và thủ thư của thư viện sẽ nghĩ ra hàng trăm câu hỏi dựa trên các tin nóng, nhập chúng vào ChatGPT, Gemini hay các mô hình AI khác, rồi lưu lại cả câu hỏi lẫn câu trả lời. Những đoạn tóm tắt xuất hiện đầu trang tìm kiếm Google cũng được lưu trữ cẩn thận.
Nhà sáng lập Brewster Kahle không giấu giếm lý do khi nói: “Thư viện luôn là mục tiêu đầu tiên khi mỗi chính quyền mới lên nắm quyền". (Ảnh: Amber Hughes)
Để tránh rủi ro thiên tai hay chính trị, bản sao dữ liệu được đặt ở nhiều nơi trên thế giới. Nhà sáng lập Brewster Kahle không giấu giếm lý do khi nói: “Thư viện luôn là mục tiêu đầu tiên khi mỗi chính quyền mới lên nắm quyền. Chúng tôi học từ lịch sử để thiết kế cho tương lai”.
Năm 2017 và gần đây hơn dưới thời chính quyền Tổng thống Donald Trump, hàng loạt trang web chính phủ Mỹ bị xóa sạch thông tin về biến đổi khí hậu, quyền của cộng đồng LGBTQ+ hay thành tựu của các quân nhân da màu. Nhờ Internet Archive đã lưu từ trước, báo chí mới có thể khôi phục chính xác những thông tin trên.
Mái nhà của những “tinh thần cyberpunk”
Bước vào trụ sở Internet Archive, du khách dễ tưởng mình lạc vào bảo tàng sống của internet. Hơn 100 bức tượng đất nung cao 1 mét, mỗi bức tạc một nhân viên đã làm việc tại đây ít nhất 3 năm, đứng thành hàng như đội quân đất nung trong lăng mộ Tần Thủy Hoàng.
Khoảng 200 người đang làm việc tại Internet Archive. (Ảnh: CNN)
Cùng với đó, những chiếc máy quét sách do chính đội ngũ kỹ sư của Internet Archive tự chế tạo đang hoạt động không ngừng nghỉ. Từng trang sách giấy được lật và quét từng tờ một, với toàn bộ quá trình được phát trực tiếp trên YouTube với phần nhạc lo-fi nhẹ nhàng làm nền.
Ngay cạnh đó, chiếc máy phát nhạc với đầu đọc đĩa than từ những năm 1920 vẫn quay đều. Chúng phát ra những giai điệu cổ điển, hòa quyện cùng hàng loạt thiết bị đọc media cổ xưa khác như máy chiếu microfilm, đầu đĩa CD cũ kỹ, thậm chí cả những đầu thu vệ tinh truyền hình từ thời kỳ đầu của công nghệ số… Tất cả tạo nên một không gian vừa hoài cổ vừa hiện đại, nơi mọi định dạng thông tin của nhân loại đều được trân trọng và bảo vệ.
Hai trăm con người ở đây, từ lập trình viên đến thủ thư, đều mang tinh thần “cyberpunk” như một vị khách nhận xét tại buổi tiệc mừng Wayback Machine cán mốc lưu trữ 1.000 tỷ trang web. Họ làm việc không vì lương cao mà vì niềm tin rằng nếu không ai lưu giữ, toàn bộ ký ức số của nhân loại sẽ tan biến chỉ sau một đêm.
Brewster Kahle nhắc đi nhắc lại rằng Internet Archive không phải bảo tàng để kể một câu chuyện duy nhất, cũng không phải cơ quan kiểm duyệt sự thật. Nó chỉ là nguồn tài nguyên để bất kỳ ai cũng có thể tự viết nên câu chuyện của riêng mình từ quá khứ số còn nguyên vẹn. Và với 1.000 tỷ trang web đã được cứu, hành trình bảo vệ ký ức chung của loài người mới chỉ bắt đầu.
Việt Anh