1. Đại úy Nguyễn Thế Cương không còn nhớ chính xác lần đầu tiên anh nhận được tin nhắn từ một người quen: "Anh ơi, anh quảng cáo thuốc gì trên mạng vậy?”. Nhưng, anh nhớ cảm giác đó. Bàng hoàng. Rồi tức giận. Rồi mệt mỏi, thứ mệt mỏi kéo dài cho đến nhiều ngày sau.
MC Thế Cương bị Al tạo giọng nói trên mạng xã hội.
Là MC dẫn bản tin thời sự của Truyền hình ANTV, kênh truyền hình chủ lực quốc gia, cơ quan chủ quản là Bộ Công an, nơi mỗi từ phát ra đều gắn với hai chữ chính thống, giọng nói của Thế Cương được khán giả cả nước nhận ra không chỉ bởi âm sắc, mà bởi sự tin tưởng được xây dựng qua nhiều năm. Chính điều đó khiến anh trở thành mục tiêu lý tưởng cho một thứ tội phạm mới, làm giả giọng nói của người nổi tiếng bằng AI. Những kẻ thực hiện không cần gặp anh, chỉ cần những file audio công khai sau mỗi ngày phát sóng để huấn luyện một mô hình AI nhái lại giọng nói của anh với độ chính xác đủ để đánh lừa khán giả phổ thông.
Kết quả là hàng loạt video lan truyền trên mạng xã hội, trong đó "MC Thế Cương" đang dõng dạc giới thiệu thực phẩm chức năng, thuốc chữa bệnh, hay các kênh lừa đảo "lùa gà" đầu tư tài chính, những thứ anh chưa bao giờ nhìn thấy, chứ chưa nói đến việc quảng cáo. "Đây không phải là câu chuyện nằm trong suy nghĩ mà thực tế đang diễn ra", anh nói. "Không chỉ tôi mà rất nhiều BTV, MC dẫn bản tin thời sự đang bị giả mạo không chỉ âm thanh mà còn cả hình ảnh".
Thế Cương phải dành nhiều thời gian, thứ tài nguyên quý giá nhất của một người làm tin tức, để đính chính. Lần này rồi lần khác. Trên trang cá nhân. Trong tin nhắn riêng. Với từng người quen gọi điện hỏi. Không phải vì anh sai, mà vì có một phiên bản AI của anh đang nói sai và nó thuyết phục đến mức không ít người đã tin và chuyển tiền.
Điều khiến anh lo ngại hơn cả thiệt hại cá nhân, là câu hỏi rộng hơn: "Khi giọng nói, thứ công cụ duy nhất của người làm truyền hình, có thể bị sao chép và vũ khí hóa, thì niềm tin công chúng đặt vào báo chí chính thống sẽ đứng vững được bao lâu? Khi AI giả giọng nói gần như thật, kẻ xấu có thể tạo ra các nội dung giả mạo, gán ghép phát ngôn cho những người có uy tín. Điều này khiến khán giả khó phân biệt thật hay giả, từ đó làm xói mòn niềm tin vào chính những nguồn tin vốn được xem là đáng tin cậy".
Trường hợp của Thế Cương không phải cá biệt. Nó chỉ là phần nổi của một tảng băng đang ngày càng lớn hơn, nguy hiểm hơn. Tại Việt Nam, làn sóng clone giọng AI đang nhắm vào chính những giọng nói quen thuộc nhất, đáng tin nhất trong ký ức công chúng.
Các nghệ sĩ lồng tiếng của nhóm Đạt Phi, những người đã dành cả sự nghiệp để xây dựng một chất giọng riêng, một phong cách riêng, bỗng phát hiện giọng mình đang được "mượn" để đọc quảng cáo cho đủ loại sản phẩm trôi nổi không rõ nguồn gốc. MC kỳ cựu Lại Văn Sâm, người gắn liền với thế hệ khán giả truyền hình nhiều thập kỷ cũng không thoát khỏi vòng xoáy này. Giọng nói của anh, từng là biểu tượng của sự tin cậy, nay bị biến thành công cụ của những kẻ lừa đảo.
Nhưng, có lẽ trường hợp gây xót xa nhất lại là giọng đọc của nhạc sĩ Nguyễn Đình Toàn. Với thế hệ yêu nhạc Việt, giọng ông là một thứ không thể nhầm lẫn, trầm, chậm, mang trong đó cả một thời đại âm nhạc và ký ức. Giọng đọc ấy từng dẫn dắt người nghe qua những đêm nhạc hoài niệm, những trang tản văn về Sài Gòn xưa cũ, những câu chuyện âm nhạc được kể bằng tất cả tâm huyết của một người nghệ sĩ.
Thế mà giờ đây, chính giọng đọc đặc trưng ấy đang bị nhân bản để rồi xuất hiện trong những video ngắn đầy rẫy trên mạng xã hội, đọc những câu "đạo lý ba xu", những triết lý sống sượng được cắt ghép vô hồn, không tác giả, không bối cảnh, không liên quan đến những gì ông từng theo đuổi cả đời.
2. Vậy, chính xác thì những kẻ đứng sau các video giả mạo đó đã làm gì? Và, tại sao lại dễ đến vậy?
Giả giọng người nổi tiếng đang trở thành vấn nạn online.
Anh Thanh Trần, nhà sáng tạo nội dung về AI và tự động hóa, một trong những chuyên gia hiếm hoi ở Việt Nam có thể giải thích điều này bằng ngôn ngữ của cả kỹ thuật lẫn đời thường. "Công nghệ tái tạo giọng nói đã thay đổi hoàn toàn trong khoảng 3 năm trở lại đây", anh nói. "Trước đó, để tạo ra một bản sao giọng nói, cần thu âm hàng chục giờ trong phòng studio chuyên dụng, rồi huấn luyện mô hình riêng biệt trong nhiều ngày. Bây giờ, quy trình đó rút xuống còn vài giây thu âm và vài phút xử lý". Vài giây. Vài phút. Và, chi phí, theo anh Thanh Trần, gần như bằng không.
Có những công cụ trực tuyến cho phép bất kỳ ai tải lên một đoạn ghi âm và nhận lại bản sao giọng nói trong vài phút, miễn phí, hoặc chỉ vài đô la mỗi tháng. Với những người nổi tiếng như MC Lại Văn Sâm, Thế Cương, hay nhạc sĩ Nguyễn Đình Toàn, lượng audio công khai trên internet là vô tận, từ bản tin phát sóng, talk show, đến các file ghi âm âm nhạc lưu hành nhiều năm. AI có thừa nguyên liệu để học và không cần hỏi xin phép chủ nhân của chúng.
Phía sau những công cụ đó là nền tảng kỹ thuật "deep learning", đặc biệt là kiến trúc transformer, cùng họ công nghệ với ChatGPT, nhưng được áp dụng cho âm thanh. Mô hình AI nghe mẫu giọng nói, phân tách ra hàng nghìn đặc điểm, cao độ, sắc thái, tốc độ, nhịp thở, cách nhấn âm... thậm chí cả những thói quen vô thức như hắng giọng hay ngắt nghỉ giữa câu. Từ đó, nó tạo ra một thứ mà anh Thanh Trần gọi là "khuôn đúc giọng nói", và có thể đổ bất kỳ nội dung nào vào khuôn đó.
Thế hệ công nghệ mới nhất còn đi xa hơn, không chỉ sao chép giọng mà còn sao chép cảm xúc. AI bây giờ biết lúc nào cần vui, buồn, phẫn nộ, thì thầm... tất cả đều dựa trên ngữ cảnh câu nói. "Nó không còn là giọng robot nữa", anh Thanh Trần nhận định, "mà là một bản sao kỹ thuật số gần như hoàn chỉnh của con người thật".
Anh Thanh Trần nhìn nhận hậu quả của công nghệ này theo 3 tầng, từ cá nhân ra đến toàn xã hội. Tầng gần nhất và dễ thấy nhất là thiệt hại trực tiếp với con người: lừa đảo tài chính bằng giọng giả, bôi nhọ danh dự bằng cách gán cho ai đó những phát ngôn họ chưa bao giờ nói, và xâm phạm quyền nhân thân khi dùng giọng của một người cho quảng cáo thương mại mà không xin phép, đúng như những gì đang xảy ra với MC Thế Cương hay các nghệ sĩ nổi tiếng.
Tầng thứ hai là sinh kế của cả một ngành nghề. Với diễn viên lồng tiếng, MC, phát thanh viên, giọng nói không chỉ là công cụ, đó là tài sản nghề nghiệp được mài giũa qua nhiều năm. Khi AI có thể sao chép và sử dụng giọng đó miễn phí, vô thời hạn, không cần trả thù lao, thì thứ tài sản ấy bỗng mất đi phần lớn giá trị. Anh Thanh Trần nhắc đến làn sóng diễn viên lồng tiếng Trung Quốc mất việc vì AI như một bài học cận kề: "Tôi tin nó sẽ xảy ra ở Việt Nam".
Nhưng, điều anh lo ngại nhất lại ở tầng thứ ba, thứ khó đo đếm nhất nhưng cũng nguy hiểm nhất, đó là sự xói mòn lòng tin trong xã hội. "Khi bất kỳ đoạn audio nào cũng có thể là giả thì giọng nói không còn là bằng chứng đáng tin", anh nói. Điều đó ảnh hưởng đến tòa án (liệu một đoạn ghi âm còn có giá trị pháp lý?), đến truyền thông (một phát biểu rò rỉ, là thật hay giả?) và đến cả giao tiếp hằng ngày (cuộc gọi từ người thân, tin hay không tin?). "Khi sự hoài nghi lan rộng, cái bị tổn thương không chỉ là cá nhân mà là cả hệ thống niềm tin xã hội", anh Thanh Trần nói.
3. Công nghệ đã có. Hậu quả đã rõ. Còn pháp luật, đang ở đâu? Luật sư Hoàng Hà, thành viên Đoàn Luật sư TP Hồ Chí Minh, cho biết: "Khoảng trống pháp lý lớn nhất hiện nay là chúng ta chưa có một quyền pháp lý độc lập và thật rõ đối với giọng nói trong bối cảnh AI đang phát triển nhanh chóng".
Theo luật sư Hoàng Hà, giọng nói tự nhiên là yếu tố nhân thân, nhưng khi nó được đưa vào quảng cáo, lồng tiếng, biểu diễn, cấp phép khai thác, thì giá trị kinh tế phát sinh từ đó hoàn toàn có thể được bảo vệ như một dạng tài sản. Pháp luật sở hữu trí tuệ hiện hành không bảo hộ giọng nói như một tài sản độc lập, nhưng có bảo hộ cuộc biểu diễn, và người biểu diễn có cả quyền nhân thân lẫn quyền tài sản đối với cuộc biểu diễn của mình.
Luật Trí tuệ nhân tạo 2025, có hiệu lực từ tháng 3/2026, được xem là bước tiến quan trọng, yêu cầu nội dung âm thanh do AI tạo ra có thể gây nhầm lẫn phải được thông báo, và nội dung mô phỏng giọng người thật phải gắn nhãn dễ nhận biết. Nghe có vẻ đủ, nhưng theo luật sư Hoàng Hà, đó mới chỉ là kiểm soát đầu ra, chứ chưa chạm đến đầu vào. "Cái còn thiếu nhất là quy định thật rõ về sự đồng ý khi dùng giọng nói, về nghĩa vụ truy xuất nguồn dữ liệu và về cơ chế gỡ bỏ khẩn cấp đủ nhanh để bảo vệ người bị xâm phạm trước khi thiệt hại lan rộng", anh chỉ rõ.
Nói cách khác, luật hiện tại xử lý được video giả sau khi nó đã tung lên mạng, nhưng không ngăn được việc giọng của MC Thế Cương, hay nhạc sĩ Nguyễn Đình Toàn, đang bị âm thầm thu thập và đưa vào huấn luyện mô hình AI ngay lúc này. Và, khi muốn xử lý một vụ "ăn cắp" giọng, người bị hại vẫn phải vận dụng đồng thời nhiều luật khác nhau, mỗi luật bảo vệ một mảnh, nhưng không luật nào bảo vệ trọn vẹn.
Dương Trí Toàn