Ảnh minh họa.
Cụ thể, 3 mô hình mới gồm GPT-Realtime-2, GPT-Realtime-Translate và GPT-Realtime-Whisper được tích hợp trong nền tảng Realtime API, hướng tới các ứng dụng giao tiếp tự nhiên, liên tục và có khả năng xử lý đa nhiệm.
Trong đó, GPT-Realtime-2 được xem là trung tâm, khi mang khả năng suy luận tương đương các mô hình thế hệ mới vào hội thoại trực tiếp, cho phép xử lý yêu cầu phức tạp mà vẫn duy trì mạch trao đổi.
Đáng chú ý, GPT-Realtime-Translate cho phép dịch lời nói theo thời gian thực giữa hơn 70 ngôn ngữ đầu vào và 13 ngôn ngữ đầu ra. Công nghệ này có thể tự động nhận diện nhiều người nói với các ngôn ngữ khác nhau và dịch đồng thời, mở ra khả năng giao tiếp xuyên biên giới gần như tức thì.
Trong khi đó, GPT-Realtime-Whisper cải tiến đáng kể khả năng chuyển giọng nói thành văn bản bằng cách ghi nhận và hiển thị nội dung ngay khi người dùng đang nói, thay vì chờ kết thúc câu. Điều này đặc biệt hữu ích cho phụ đề trực tiếp, ghi chú cuộc họp hoặc các ứng dụng cần xử lý nhanh.
Hiện các mô hình này được cung cấp cho nhà phát triển, song dự kiến sẽ sớm được tích hợp vào nhiều ứng dụng phổ biến. Một số doanh nghiệp đã thử nghiệm công nghệ mới, từ trợ lý đặt dịch vụ đến nền tảng video và bất động sản.
Giới chuyên gia nhận định đây có thể là bước tiến đưa “phiên dịch toàn cầu” từ khoa học viễn tưởng thành hiện thực, đồng thời mở ra làn sóng ứng dụng AI giọng nói trong nhiều lĩnh vực đời sống.
Vinh Trang - digitaltrends