Nếu từng sử dụng các công cụ dịch hội thoại, bạn có lẽ đã quen với cảnh một người nói xong, hệ thống mới bắt đầu xử lý rồi phát lại bản dịch. Cách làm này tuy hiệu quả nhưng thường khiến cuộc trò chuyện bị ngắt quãng và thiếu tự nhiên.
Gemini 3.5 Live Translate được Google phát triển để giải quyết vấn đề đó. Thay vì đợi người nói kết thúc câu, hệ thống có thể nghe, hiểu và tạo bản dịch gần như đồng thời với cuộc trò chuyện.
Theo Google, mô hình chỉ chậm hơn người nói vài giây nhưng vẫn đảm bảo độ chính xác và ngữ cảnh của nội dung.
Bên cạnh đó, AI không chỉ dịch nội dung mà còn cố gắng giữ lại ngữ điệu, nhịp nói và cao độ giọng của người nói. Điều này giúp cuộc hội thoại tự nhiên hơn, đặc biệt trong các cuộc gọi, cuộc họp hoặc khi giao tiếp với người nước ngoài.
Người dùng sử dụng Gemini 3.5 Live Translate như thế nào?
Google hiện đang tích hợp Gemini 3.5 Live Translate lên nhiều sản phẩm khác nhau.
Cách đơn giản nhất là bạn có thể sử dụng thông qua ứng dụng Google Translate trên Android và iPhone. Khi mở tính năng dịch trực tiếp, người dùng có thể trò chuyện với người nói ngôn ngữ khác và nhận bản dịch bằng giọng nói gần như ngay lập tức.
Nếu sử dụng tai nghe Bluetooth, trải nghiệm sẽ tự nhiên hơn. Người dùng nghe bản dịch được đọc lại ngay trên tai nghe trong khi cuộc trò chuyện vẫn diễn ra bình thường.
Trên Android, Google còn bổ sung một chế độ mới có tên Listening Mode. Khi kích hoạt, người dùng chỉ cần đưa điện thoại lên tai như đang nghe cuộc gọi. Bản dịch sẽ được phát trực tiếp qua loa thoại thay vì loa ngoài, giúp đảm bảo riêng tư hơn khi ở nơi công cộng hoặc khi không có sẵn tai nghe.
Ví dụ, một du khách Việt Nam đang hỏi đường tại Nhật Bản. Người địa phương nói tiếng Nhật, điện thoại sẽ dịch sang tiếng Việt gần như ngay lập tức. Khi người dùng trả lời bằng tiếng Việt, AI tiếp tục dịch ngược sang tiếng Nhật để cuộc trò chuyện diễn ra liên tục mà không cần dừng lại sau mỗi câu.
Google cho biết công nghệ này cũng đang được đưa lên Google Meet nhằm hỗ trợ các cuộc họp đa ngôn ngữ. Hệ thống có thể xử lý hơn 70 ngôn ngữ và hỗ trợ hàng ngàn tổ hợp ngôn ngữ khác nhau trong cùng một cuộc họp.
Ngoài ra, các doanh nghiệp và nhà phát triển cũng có thể tích hợp Gemini 3.5 Live Translate vào ứng dụng của riêng mình thông qua Gemini Live API.
Những nền tảng như Grab đang thử nghiệm công nghệ này để hỗ trợ giao tiếp giữa tài xế và hành khách sử dụng các ngôn ngữ khác nhau. Theo Google, mỗi tháng hiện có hơn 10 triệu cuộc gọi thoại được thực hiện thông qua nền tảng Grab.
Sự xuất hiện của Gemini 3.5 Live Translate cho thấy các công cụ dịch thuật đang dần tiến gần hơn đến mục tiêu trở thành một "phiên dịch viên" thực thụ. Thay vì chỉ chuyển đổi từng câu chữ, AI giờ đây có thể tham gia vào cuộc hội thoại theo thời gian thực, giúp việc giao tiếp giữa những người không cùng ngôn ngữ trở nên tự nhiên hơn trước rất nhiều.