Theo quyết định, danh mục bộ dữ liệu phục vụ phát triển AI trong các lĩnh vực thiết yếu gồm 15 bộ dữ liệu về ngôn ngữ tiếng Việt và tiếng dân tộc thiểu số; tri thức quốc gia; văn bản pháp luật và văn bản hành chính (không bao gồm văn bản mật); khoa học, công nghệ và đổi mới sáng tạo; dịch vụ công và thủ tục hành chính; y tế và chăm sóc sức khỏe; giáo dục và đào tạo; nông nghiệp; giao thông và đô thị; tài nguyên và môi trường; kinh tế và thị trường; văn hóa, di sản và du lịch; bản đồ và không gian địa lý quốc gia; viễn thông và hạ tầng số; đa ngôn ngữ quốc tế về Việt Nam. Các bộ dữ liệu này sẽ được triển khai trong giai đoạn 2026 – 2030.
Bên cạnh đó, danh mục dữ liệu ưu tiên triển khai phục vụ phát triển AI được xây dựng trên cơ sở các bộ dữ liệu nêu trên, gồm 5 nhóm dữ liệu chính.
Thứ nhất là nhóm dữ liệu phục vụ phát triển mô hình ngôn ngữ lớn tiếng Việt, bao gồm dữ liệu ngôn ngữ tiếng Việt phổ thông; hội thoại và tương tác tiếng Việt; tiếng nói tiếng Việt; ngôn ngữ các dân tộc thiểu số; dữ liệu hướng dẫn và căn chỉnh mô hình; dữ liệu tổng hợp nhân tạo; báo chí và truyền thông; tri thức và thuật ngữ chuyên ngành; pháp luật và văn bản quản lý hành chính; khoa học, học thuật và quy chuẩn kỹ thuật; mã nguồn và lập trình; toán học và suy luận khoa học; văn hóa và lịch sử Việt Nam; dữ liệu nguồn mở trên Internet và môi trường số; cùng dữ liệu song ngữ và đa ngôn ngữ.
Thứ hai là nhóm dữ liệu phục vụ phát triển AI thị giác máy tính, gồm dữ liệu đa phương tiện phục vụ hiểu ngữ cảnh hình ảnh và video; dữ liệu hình ảnh trong các lĩnh vực y tế, nông nghiệp, giao thông, đô thị và hạ tầng, vệ tinh và viễn thám.
Dữ liệu về thủ tục hành chính được đưa vào danh mục dữ liệu ưu tiên triển khai phục vụ phát triển trí tuệ nhân tạo. Ảnh minh họa: Bộ Khoa học và Công nghệ.
Thứ ba là nhóm dữ liệu phục vụ kiểm thử và đánh giá hệ thống AI, bao gồm dữ liệu đánh giá năng lực hiểu tiếng Việt, năng lực hội thoại tiếng Việt, hiểu biết pháp luật Việt Nam, năng lực lập trình và kỹ thuật, năng lực suy luận và tri thức, cũng như hiểu biết về văn hóa và xã hội.
Thứ tư là nhóm dữ liệu phục vụ phát triển AI trong các lĩnh vực thiết yếu, gồm dữ liệu về thủ tục hành chính; y tế và chăm sóc sức khỏe; giáo dục; môi trường và khí hậu; năng lượng và tài nguyên; tài chính và kinh tế; bản đồ số và địa lý quốc gia; hạ tầng viễn thông và mạng số.
Thứ năm là nhóm dữ liệu phục vụ đánh giá an toàn và độ tin cậy của AI, gồm dữ liệu phát hiện tin giả và thông tin sai lệch; nhận diện sản phẩm đa phương tiện do AI tạo ra; kịch bản tấn công và kiểm thử đạo đức AI; phát hiện mã độc và các mối đe dọa an ninh mạng.
Theo Bộ Khoa học và Công nghệ, việc ban hành danh mục bộ dữ liệu phục vụ phát triển AI trong các lĩnh vực thiết yếu nhằm xây dựng hệ sinh thái dữ liệu AI quốc gia theo hướng đồng bộ, mở và an toàn. Đồng thời, quyết định này hướng tới hoàn thiện các kho dữ liệu lớn (Big Data) và hồ dữ liệu (Data Lake) trong các lĩnh vực thiết yếu để thúc đẩy nghiên cứu, phát triển và ứng dụng AI trong quản trị Nhà nước, phát triển kinh tế số.
Bộ Khoa học và Công nghệ đặt mục tiêu đến năm 2030, 100% cơ sở dữ liệu ưu tiên sẽ được số hóa và chuẩn hóa để tích hợp vào Cơ sở dữ liệu tổng hợp quốc gia phục vụ phát triển AI; làm chủ hoàn toàn các mô hình ngôn ngữ lớn tiếng Việt và các thuật toán AI cốt lõi phù hợp với điều kiện, đặc thù trong nước.
Hà Anh
Theo Cổng TTĐT Chính phủ