Chủ tịch Alibaba: Không có người thắng cuộc đua AI, Mỹ phải học hỏi Trung Quốc

Chủ tịch Alibaba: Không có người thắng cuộc đua AI, Mỹ phải học hỏi Trung Quốc
13 giờ trướcBài gốc
"Khi nói đến AI, không có khái niệm chiến thắng trong cuộc đua. Đó là một cuộc chạy marathon dài", ông Thái Sùng Tín nói tại Hội nghị Thượng đỉnh All-In 2025, với bản ghi âm vừa được đăng tải hôm 9.10.
Chủ tịch Alibaba cho biết cuộc đua AI không chỉ nằm ở việc ai có thể xây dựng mô hình lớn nhất hay mạnh nhất, mà là ai triển khai AI nhanh hơn.
“Tuần này có một mô hình AI dẫn đầu, nhưng sang tuần sau lại có mô hình khác vượt lên. Theo định nghĩa của tôi, người chiến thắng không phải tạo ra mô hình AI mạnh nhất, mà có thể ứng dụng nó nhanh nhất”, ông nhấn mạnh.
Thái Sùng Tín cho rằng Mỹ nên học hỏi Trung Quốc về việc tập trung nhiều hơn vào ứng dụng và phổ biến AI thay vì chi hàng tỉ USD để phát triển các mô hình lớn hơn.
Chủ tịch Alibaba cho biết các công ty Trung Quốc đang áp dụng các mô hình AI mã nguồn mở và nhỏ gọn hơn, được tối ưu hóa cho mục đích sử dụng thực tế, chẳng hạn trên thiết bị di động và laptop.
"Tôi không nói rằng Trung Quốc đang thắng thế về mặt công nghệ trong cuộc chiến mô hình AI. Thế nhưng xét về khía cạnh ứng dụng thực tế và lợi ích mà người dân thu được từ AI, Trung Quốc đã có nhiều bước tiến đáng kể. Điều quan trọng là AI phải được phổ biến rộng rãi", doanh nhân 61 tuổi nói thêm.
Thái Sùng Tín cho rằng không có khái niệm chiến thắng trong cuộc đua AI - Ảnh: Getty Images
Chiến lược AI của Mỹ và Trung Quốc
Các hãng công nghệ Mỹ đã chi hàng tỉ USD để duy trì vị thế dẫn đầu trong cuộc đua AI.
Các lãnh đạo Meta Platforms dự kiến sẽ chi 600 tỉ USD cho cơ sở hạ tầng AI, gồm cả các trung tâm dữ liệu khổng lồ, đến năm 2028. OpenAI, Oracle và Softbank hồi tháng 1 đã công bố kế hoạch đầu tư 500 tỉ USD vào dự án trung tâm dữ liệu có tên là Stargate. Gần đây, OpenAI (“cha đẻ ChatGPT”) đã ký các hợp đồng trị giá khoảng 1.000 tỉ USD với AMD, Nvidia, Oracle và CoreWeave để mua năng lực điện toán phục vụ cho việc vận hành các mô hình AI của mình.
Trong khi đó, lĩnh vực AI của Trung Quốc tập trung vào các mô hình tinh gọn, hiệu quả, rẻ hơn, nhẹ hơn và dễ triển khai hơn.
Mô hình suy luận mã nguồn mở R1 của DeepSeek từng làm rung chuyển ngành công nghiệp AI và thị trường chứng khoán hồi đầu năm nay, vì đạt hiệu suất sánh ngang các sản phẩm hàng đầu Mỹ nhưng được huấn luyện với chi phí thấp hơn rất nhiều.
Hồi tháng 9, DeepSeek cho biết chỉ mất 294.000 USD để huấn luyện R1 và sử dụng 512 chip Nvidia H800.
Đầu năm nay, DeepSeek tiết lộ huấn luyện mô hình nền tảng mã nguồn mở V3 chỉ bằng 2.048 GPU Nvidia H800 trong hai tháng, với chi phí 5,6 triệu USD.
H800 không phải là loại chip AI hàng đầu của Nvidia. Ban đầu H800 được Nvidia phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.
DeepSeek gây tiếng vang nhờ các mô hình AI mã nguồn mở hiệu suất cao với chi phí huấn luyện rất thấp - Ảnh: FT
Sam Altman, Giám đốc điều hành OpenAI, từng nói vào năm 2023 rằng việc huấn luyện mô hình nền tảng đã tiêu tốn nhiều hơn 100 triệu USD, dù công ty của ông chưa bao giờ đưa ra con số chi tiết cho bất kỳ phiên bản nào.
Theo công ty nghiên cứu Epoch AI (Mỹ), lần huấn luyện mô hình AI đắt nhất cho tới nay là Grok 4 của công ty khởi nghiệp xAI, do Elon Musk điều hành, với chi phí 490 triệu USD. Epoch AI dự báo các lần huấn luyện mô hình AI trong tương lai có thể vượt 1 tỉ USD vào năm 2027.
Thay vì cố gắng vượt mặt những công ty hàng đầu như OpenAI, Trung Quốc tập trung vào việc triển khai AI trên các công nghệ hàng ngày với tốc độ chóng mặt, theo Ray Wang - Giám đốc nghiên cứu về chất bán dẫn và công nghệ mới nổi tại Futurum Group. Đây là hãng nghiên cứu và tư vấn công nghệ có trụ sở tại Mỹ, chuyên phân tích các xu hướng, chiến lược và tác động của công nghệ với doanh nghiệp.
Ray Wang nhận định tốc độ tích hợp AI nhanh chóng có thể quan trọng không kém chất lượng mô hình, trong việc xác định năng lực cạnh tranh tổng thể của một quốc gia về AI.
Alibaba gây tiếng vang với mô hình AI hiệu suất cao, chi phí huấn luyện thấp
Gã khổng lồ thương mại điện tử Alibaba là một trong những nhân tố hàng đầu trong làn sóng AI tại Trung Quốc.
Tháng trước, Alibaba Cloud đã công bố Qwen3-Next-80B-A3B, mô hình AI thế hệ mới vừa đạt hiệu suất cao vừa tiết kiệm tài nguyên như bộ nhớ, điện toán, chi phí huấn luyện. Bộ phận AI và điện toán đám mây của Alibaba gọi đây là “tương lai của các mô hình ngôn ngữ lớn hiệu quả”.
Qwen3-Next-80B-A3B nhỏ hơn gần 13 lần so với Qwen-3-Max-Preview, mô hình AI đầu tiên của Alibaba vượt ngưỡng 1.000 tỉ tham số.
Tham số là các giá trị số mà mô hình AI học được và điều chỉnh trong suốt quá trình huấn luyện trên lượng lớn dữ liệu. Tham số là các biến nội bộ của mô hình AI, quyết định cách nó xử lý thông tin đầu vào và tạo kết quả đầu ra. Mục tiêu của quá trình huấn luyện là tìm ra bộ tham số tối ưu nhất để mô hình AI có thể thực hiện nhiệm vụ (dự đoán từ tiếp theo trong câu, dịch ngôn ngữ, trả lời câu hỏi...) chính xác nhất có thể dựa trên dữ liệu đã học. Số lượng tham số thường là chỉ số về kích thước và khả năng của mô hình AI. Mô hình AI càng có nhiều tham số thì tiềm năng học được các mẫu phức tạp hơn càng lớn, nhưng cũng đòi hỏi nhiều dữ liệu, tài nguyên tính toán để huấn luyện.
Dù kích thước gọn nhẹ, Qwen3-Next-80B-A3B vẫn được các nhà phát triển đánh giá là một trong những mô hình AI xuất sắc nhất của Alibaba tính đến nay. Bí quyết nằm ở hiệu suất: Qwen3-Next-80B-A3B được cho là nhanh hơn gấp 10 lần trong một số tác vụ so với Qwen3-32B ra mắt hồi tháng 4, đồng thời giảm tới 90% chi phí huấn luyện.
Emad Mostaque, đồng sáng lập công ty khởi nghiệp Stability AI (Anh), viết trên mạng xã hội X rằng Qwen3-Next-80B-A3B vượt trội “hầu như mọi mô hình AI năm ngoái”, dù chi phí huấn luyện ước tính chưa tới 500.000 USD.
Để so sánh, Google tiêu tốn khoảng 191 triệu USD cho việc huấn luyện mô hình Gemini Ultra (ra mắt tháng 2.2024), theo Chỉ số AI của Đại học Stanford (Mỹ).
Qwen3-Next-80B-A3B có hiệu suất vượt cả DeepSeek R1 và Kimi K2 do Moonshot AI phát triển, theo Artificial Analysis - công ty đánh giá mô hình AI hàng đầu có trụ sở ở Mỹ. Moonshot AI là công ty khởi nghiệp AI Trung Quốc được Alibaba hậu thuẫn.
Một số nhà nghiên cứu AI cho rằng thành công của Qwen3-Next-80B-A3B nhờ vào kỹ thuật mới gọi là cơ chế chú ý lai (hybrid attention). Cơ chế chú ý lai là kỹ thuật tiên tiến trong lĩnh vực học máy, được thiết kế để cải thiện hiệu quả và hiệu suất các mô hình ngôn ngữ lớn. Về cơ bản, kỹ thuật này kết hợp các ưu điểm của cơ chế chú ý truyền thống với phương pháp tính toán hiệu quả khác để giải quyết những hạn chế của nó.
Các mô hình AI hiện tại gặp vấn đề hiệu quả giảm dần khi độ dài đầu vào tăng, do cơ chế chú ý quyết định thông tin nào quan trọng nhất. Cơ chế này luôn tồn tại sự đánh đổi: Chú ý càng chính xác thì chi phí điện toán càng cao. Chi phí đó càng chồng chất khi mô hình xử lý ngữ cảnh dài và khiến việc huấn luyện các tác tử AI phức tạp trở nên đắt đỏ.
Qwen3-Next-80B-A3B giải quyết thách thức này bằng cách áp dụng kỹ thuật Gated DeltaNet, được các nhà nghiên cứu tại Viện Công nghệ Massachusetts (MIT) và Nvidia giới thiệu lần đầu vào tháng 3.
Gated DeltaNet tăng cường cơ chế chú ý bằng cách điều chỉnh có chọn lọc dữ liệu đầu vào, xác định thông tin nên giữ lại và loại bỏ phần không cần thiết, theo Zhou Peilin - nhà nghiên cứu AI tại Đại học Khoa học & Công nghệ Hồng Kông. Điều này tạo ra một cơ chế chú ý vừa chính xác vừa tiết kiệm chi phí.
Qwen3-Next-80B-A3B cũng sử dụng kiến trúc MoE (tổ hợp các chuyên gia), vốn mang lại nhiều cải tiến hiệu suất cho nhiều mô hình AI Trung Quốc năm qua, gồm cả DeepSeek V3, R1 và Kimi K2.
MoE là phương pháp học máy phân chia một mô hình AI thành các mạng con riêng biệt, hay còn gọi là các chuyên gia (expert), mỗi chuyên gia tập trung vào một tập hợp con dữ liệu đầu vào, để cùng nhau thực hiện nhiệm vụ. Cách tiếp cận này giúp giảm đáng kể chi phí tính toán trong quá trình tiền huấn luyện mô hình AI và tăng tốc độ xử lý ở giai đoạn suy luận.
Alibaba đã nâng cao “mức độ thưa” của kiến trúc MoE mới (giảm số chuyên gia hoạt động đồng thời) nhằm cải thiện hiệu quả. Trong khi DeepSeek-V3 và Kimi K2 lần lượt dùng 256 và 384 chuyên gia, Qwen3-Next-80B-A3B có 512 chuyên gia nhưng chỉ kích hoạt 10 chuyên gia tại một thời điểm.
Bằng cách giảm số chuyên gia hoạt động đồng thời, Alibaba giúp Qwen3-Next-80B-A3B tiết kiệm tài nguyên, tăng tốc xử lý và vẫn đảm bảo chất lượng đầu ra.
Artificial Analysis cho biết nhờ những đổi mới này, Qwen3-Next-80B-A3B đạt hiệu năng ngang DeepSeek V3.1 dù chỉ có 3 tỉ tham số. Con số này ở DeepSeek-V3.1 là 37 tỉ tham số. Thông thường, tham số càng cao nghĩa là mô hình AI mạnh hơn, nhưng đồng thời làm tăng chi phí huấn luyện và vận hành.
Hiệu quả còn thể hiện rõ trên nền tảng đám mây của Alibaba, nơi Qwen3-Next-80B-A3B có chi phí vận hành rẻ hơn Qwen3-235B-2507, vốn chứa 235 tỉ tham số.
Sơn Vân
Nguồn Một Thế Giới : https://1thegioi.vn/chu-tich-alibaba-khong-co-nguoi-thang-cuoc-dua-ai-my-phai-hoc-hoi-trung-quoc-238657.html