Vượt qua giới hạn cảm xúc
Công bố từ nghiên cứu gần đây của Đại học Queen Mary xác nhận rằng các mô hình mạng nơ-ron mới nhất đã loại bỏ những giới hạn cuối cùng về độ tự nhiên và cảm xúc của giọng nói do AI tạo ra.
Trước đây, giọng nói AI thường bị đánh giá là "giả" hoặc thiếu cảm xúc. Tuy nhiên, các mô hình AI thế hệ mới đã được huấn luyện trên lượng dữ liệu khổng lồ, cho phép chúng phân tích và tái tạo các thành phần phức tạp nhất của lời nói con người. Nghiên cứu mới nhất cho thấy, các hệ thống tổng hợp giọng nói hiện đại có thể tái tạo tới 95% các đặc điểm và sắc thái nhỏ như độ rung, hơi thở, và cả biểu cảm thoáng qua (micro-expressions) mà trước đây chỉ có diễn viên lồng tiếng chuyên nghiệp mới làm được.
Các hệ thống AI mới nhất đã thành công trong việc đánh lừa thính giả tới 62% số lần, một sự gia tăng đáng kể so với tỷ lệ chỉ 47% của hai năm trước.
Trong các thử nghiệm, đặc biệt là những biến thể của bài kiểm tra dành cho giọng nói, các hệ thống AI mới nhất đã thành công trong việc đánh lừa thính giả tới 62% số lần, một sự gia tăng đáng kể so với tỷ lệ chỉ 47% của hai năm trước. Điều này cho thấy nhận thức của con người về giọng nói AI đã thay đổi hoàn toàn.
Ứng dụng đa ngành và những lợi ich vượt trội
Sự hoàn hảo của giọng nói AI mở ra cánh cửa cho hàng loạt ứng dụng trong nhiều lĩnh vực. Đơn cử, trong truyền thông và Quảng cáo, các doanh nghiệp có thể tạo ra giọng nói thương hiệu nhất quán trên toàn cầu, với khả năng chuyển đổi ngôn ngữ và giọng điệu mà vẫn giữ nguyên đặc tính cốt lõi của giọng nói gốc (ví dụ, một AI đa ngữ như DeepMind có thể chuyển đổi giữa 100 ngôn ngữ).
Trong điện ảnh và game, nhà sản xuất có thể tạo lồng tiếng chất lượng cao, những nhân vật game, hay trợ lý ảo có giọng nói cực kỳ chân thực, thậm chí là tái tạo giọng nói của diễn viên đã qua đời.
Các chatbot và hệ thống tương tác tương lai cũng có thể cung cấp phản hồi bằng giọng nói tự nhiên và có độ sâu cảm xúc hơn, cải thiện trải nghiệm người dùng và tăng cường khả năng trị liệu.
Thách thức cảnh báo: Bảo mật và đạo đức
Dẫu vậy, sự tiến bộ này cũng đi kèm với những rủi ro nghiêm trọng cần được xem xét. Tội phạm mạng chỉ với chỉ với vài phút âm thanh mẫu đã có thể sao chép giọng nói. Các hệ thống xác thực giọng nói (voice authentication) đã được chứng minh là dễ bị lừa bởi các tệp âm thanh do AI tạo ra với tỷ lệ thành công lên tới hơn 99% trong một số trường hợp.
Ngành công nghiệp điện ảnh và lồng tiếng đang đối mặt với làn sóng các vụ kiện liên quan đến việc AI sử dụng giọng nói của nghệ sĩ mà không có sự cho phép hoặc đền bù thỏa đáng. Tòa án đã bắt đầu xem xét các vụ việc về sở hữu trí tuệ đối với giọng nói AI sao chép, đặt ra câu hỏi về quyền bảo hộ thương hiệu và bản quyền đối với giọng nói cá nhân. Sinh kế của một lượng không hề nhỏ diễn viên lồng tiếng cũng đang bị đe dọa khi các công ty chuyển sang sử dụng giải pháp AI tiết kiệm chi phí và tốc độ cao.
Các chuyên gia kêu gọi cần có các quy định pháp lý và công cụ phát hiện deepfake giọng nói tiên tiến hơn để đảm bảo rằng công nghệ này được sử dụng một cách có trách nhiệm và đạo đức.
Quỳnh Lâm
Theo Tổng hợp