Vì sao 'ông lớn' công nghệ thế giới không mặn mà với tiếng Việt?

5 giờ trướcBài gốc

Để có được cơ sở dữ liệu toàn diện, phục vụ cho sự phát triển chung của nền kinh tế, cần có sự tham gia của khu vực nhà nước và tư nhân. Meta đang tham gia vào quá trình này với dự án bộ dữ liệu tiếng Việt ViGen.

Theo bà Nguyễn Thu Thảo, Giám đốc chính sách công phụ trách thị trường Việt Nam, Lào và Campuchia của Meta, cuối năm ngoái, Giáo sư Yann LeCun – Phó Chủ tịch kiêm nhà khoa học trưởng về AI của Meta - tới Việt Nam và được gặp Bộ trưởng Bộ KH&CN Nguyễn Mạnh Hùng. Bộ trưởng đã đề nghị Meta hỗ trợ công nghệ, tài chính và nhân lực để phát triển hệ sinh thái, tạo điều kiện cho doanh nghiệp Việt Nam, đặc biệt là doanh nghiệp công nghệ, có thể sử dụng nền tảng dữ liệu tiếng Việt.

Bà Nguyễn Thu Thảo, Giám đốc chính sách công phụ trách thị trường Việt Nam, Lào và Campuchia của Meta, chia sẻ về dự án ViGen. Ảnh: Văn Tuyến

Dự án ViGen ra đời từ ý tưởng này và được công bố vào tháng 3. ViGen được tổ chức bởi Trung tâm Đổi mới sáng tạo Quốc gia (NIC) phối hợp với Meta, cùng sự tham gia của các đối tác như NVIDIA, Viettel và Quỹ AI for Vietnam.

Mục tiêu chính của dự án là giải quyết vấn đề thiếu hụt dữ liệu tiếng Việt chất lượng cao cho việc đào tạo AI, từ đó giúp các mô hình AI xử lý tiếng Việt một cách tự nhiên hơn.

“Tiếng Việt là một ngôn ngữ khó, được đánh giá là ít tài nguyên, do vậy chưa thuộc nhóm ngôn ngữ được các tập đoàn công nghệ lớn ưu tiên đầu tư”, bà Thảo thừa nhận. “Chưa nền tảng nào có được bộ dữ liệu tiếng Việt đầy đủ, toàn diện, chất lượng cao, phản ánh được lịch sử, văn hóa, vẻ đẹp ngôn ngữ, đặc điểm xã hội và cả hệ giá trị đạo đức của Việt Nam”.

Vì lý do này, các ứng dụng AI của những hãng công nghệ như Meta, Google xử lý tiếng Việt thiếu mượt mà và tự nhiên. Theo các chuyên gia, nhiều chatbot AI hỗ trợ tiếng Việt nhưng trong các mô hình ngôn ngữ lớn phía sau, tài nguyên ngôn ngữ tiếng Việt chỉ chiếm dưới 1%.

Dự án ViGen muốn hướng đến giải quyết vấn đề này trong thời gian tới. Lộ trình 3 năm (2025 – 2027) tập trung vào phát triển bộ dữ liệu, công cụ cho nhà phát triển và doanh nghiệp, xây dựng cộng đồng, tiêu chuẩn đánh giá và tổ chức các cuộc thi Hackathons.

Vẫn theo bà Thảo, dự kiến tháng 10, sẽ công bố bản beta của bộ cơ sở dữ liệu này. Bà hy vọng đây sẽ là nền tảng quan trọng để Việt Nam phát triển ứng dụng AI tiếng Việt, phục vụ hơn 100 triệu người dân trong những năm tới.

Trước đó, tại lễ công bố Thách thức Đổi mới sáng tạo 2025, ông Trần Việt Hùng, nhà đồng sáng lập tổ chức AI for Vietnam, cho biết sứ mệnh của ViGen là “làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi, từ đó 'mở khóa tiềm năng các ứng dụng trí tuệ nhân tạo tại Việt Nam'”.

Du Lam

Nguồn VietnamNet : https://vietnamnet.vn/vi-sao-big-tech-khong-man-ma-voi-du-lieu-tieng-viet-2441668.html