CloudMatrix 384 Supernode được mô tả là một “sản phẩm cấp độ hạt nhân” có khả năng tương đương hệ thống NVL72 của Nvidia (hãng chip AI số 1 thế giới) trong việc giảm thiểu tình trạng tắc nghẽn điện toán cho các trung tâm dữ liệu AI, trang STAR Market Daily đưa tin, trích dẫn các nguồn tin giấu tên từ Huawei.
Ra mắt vào tháng 3.2024, NVL72 gồm 72 bộ xử lý đồ họa (GPU) kết nối trong một miền NVLink, hoạt động như GPU mạnh mẽ duy nhất, hỗ trợ suy luận thời gian thực cho các mô hình ngôn ngữ lớn có hàng nghìn tỉ tham số với tốc độ nhanh hơn 30 lần so với các thế hệ trước.
NVLink là công nghệ kết nối tốc độ cao do Nvidia phát triển, cho phép nhiều GPU giao tiếp và chia sẻ dữ liệu hiệu quả hơn.
CloudMatrix 384 Supernode, đang được triển khai tại các trung tâm dữ liệu của Huawei ở thành phố Vu Hồ (tỉnh An Huy, Trung Quốc), đạt công suất tính toán 300 petaflops, so với 180 petaflops của NVL72, theo dữ liệu từ gã khổng lồ công nghệ Trung Quốc được STAR Market Daily trích dẫn.
Petaflops là đơn vị đo hiệu năng tính toán của hệ thống máy tính, đặc biệt thường được dùng để đánh giá sức mạnh của siêu máy tính hoặc các hệ thống phục vụ AI.
Flops (Floating Point Operations Per Second) là số lượng phép toán dấu phẩy động mà hệ thống có thể thực hiện mỗi giây.
1 petaflop = 1 triệu tỉ phép toán/giây.
Khi nói một hệ thống AI đạt công suất tính toán 300 petaflops nghĩa là có thể thực hiện 300 triệu tỉ phép toán dấu phẩy động trong mỗi giây.
Huawei chưa đưa ra bình luận ngay lập tức khi trang SCMP liên hệ hôm 15.4.
Supernode là kiến trúc hạ tầng AI được trang bị nhiều tài nguyên hơn, chẳng hạn bộ xử lý trung tâm (CPU), bộ xử lý thần kinh (NPU), băng thông mạng, lưu trữ và bộ nhớ, so với các hệ thống tiêu chuẩn. Điều này cho phép chúng hoạt động như các máy chủ trung gian, nâng cao hiệu suất tính toán tổng thể của các cụm máy chủ và đẩy nhanh quá trình huấn luyện những mô hình AI nền tảng.
Nếu được xác nhận, bước tiến này của Huawei cho thấy công ty đang đạt được tiến bộ trong việc tự chủ sức mạnh tính toán giữa bối cảnh căng thẳng công nghệ leo thang giữa Mỹ và Trung Quốc.
Công ty có trụ sở tại Thâm Quyến đã ra mắt hạ tầng CloudMatrix vào tháng 9.2024 nhằm đáp ứng nhu cầu ngày càng tăng về năng lực điện toán trong làn sóng AI toàn cầu, được thúc đẩy bởi GPT của OpenAI và các mô hình AI tạo sinh khác.
Huawei được cho đang hợp tác với công ty khởi nghiệp hạ tầng AI SiliconFlow (Trung Quốc) để sử dụng CloudMatrix 384 Supernode nhằm hỗ trợ R1.
R1 là mô hình suy luận của công ty khởi nghiệp DeepSeek (có trụ sở tại thành phố Hàng Châu, Trung Quốc) từng thu hút sự chú ý toàn cầu khi ra mắt vào tháng 1.
Theo STAR Market Daily, CloudMatrix 384 Supernode, sử dụng chip Huawei thay vì Nvidia, có khả năng xử lý đến 1.920 token mỗi giây mà vẫn duy trì độ chính xác cao. Token là đơn vị cơ bản của văn bản được mô hình AI sử dụng để xử lý ngôn ngữ tự nhiên.
CloudMatrix 384 Supernode của Huawei được cho là có thể cạnh tranh với NVL72 trong việc giải quyết tình trạng tắc nghẽn sức mạnh điện toán - Ảnh: SCMP
"Mô hình suy luận có thể tiêu tốn lượng tài nguyên điện toán hơn gấp 100 lần"
Các công ty Trung Quốc khác cũng đang đẩy mạnh đầu tư vào hạ tầng AI để tận dụng nhu cầu ngày càng tăng và thúc đẩy việc sử dụng chip nội địa.
Hồi tháng 2, tập đoàn thương mại điện tử Alibaba đã cam kết chi 380 tỉ nhân dân tệ (tương đương 52,4 tỉ USD) cho chi phí đầu tư vào tài nguyên tính toán và hạ tầng AI trong ba năm tới. Đây là khoản đầu tư lớn nhất từ trước đến nay của một công ty tư nhân Trung Quốc vào dự án điện toán.
Cuối tháng 2, ông Jensen Huang (Giám đốc điều hành Nvidia) nói các mô hình AI ngày càng đòi hỏi nhiều sức mạnh điện toán hơn.
Kể từ khi DeepSeek ra mắt mô hình AI mã nguồn mở V3 và R1 có hiệu suất ấn tượng với chi phí đào tạo thấp, câu hỏi lớn nhất với Nvidia là liệu chúng có làm giảm nhu cầu sức mạnh điện toán hay không.
Do R1 của DeepSeek là mô hình suy luận, Jensen Huang trả lời dứt khoát là "không".
"Các mô hình suy luận có thể tiêu tốn lượng tài nguyên điện toán hơn gấp 100 lần. Trong tương lai, suy luận còn có thể cần nhiều tài nguyên tính toán hơn nữa", ông nhấn mạnh.
Giám đốc điều hành Nvidia gọi DeepSeek là "sáng kiến tuyệt vời".
"Song quan trọng hơn nữa, DeepSeek đã mở mã nguồn một mô hình AI suy luận đẳng cấp thế giới. Gần như mọi nhà phát triển AI đều đang áp dụng R1 hoặc các kỹ thuật suy luận như chuỗi tư duy và học tăng cường tương tự R1 để cải thiện hiệu suất mô hình của họ", Jensen Huang nói thêm.
Ông Jensen Huang cho rằng các mô hình suy luận có thể tiêu tốn lượng tài nguyên điện toán hơn gấp 100 lần - Ảnh: Getty Images
Trong một cuộc phỏng vấn với Alex Bouzari (Giám đốc điều hành DDN), Jensen Huang cho rằng việc vận hành các mô hình AI như của DeepSeek trên các chip cao cấp sẽ mang lại kết quả tốt hơn. Theo Jensen Huang, mô hình AI của DeepSeek thực chất khuyến khích các công ty chi nhiều tiền hơn cho các bộ xử lý hàng đầu, thay vì khiến họ ngần ngại bỏ tiền mua những sản phẩm tốt nhất.
Là đối tác của Nvidia, DDN (DataDirect Networks) chuyên về lưu trữ dữ liệu và giải pháp hạ tầng dành cho các ứng dụng hiệu suất cao, đặc biệt là trong lĩnh vực AI, khoa học dữ liệu, điện toán hiệu năng cao (HPC) và đám mây doanh nghiệp. DDN cung cấp các hệ thống lưu trữ được tối ưu hóa để xử lý khối lượng dữ liệu lớn với tốc độ cao, giúp hỗ trợ các mô hình AI, nghiên cứu khoa học, phân tích dữ liệu và các ứng dụng yêu cầu năng lực tính toán mạnh mẽ. Các sản phẩm của DDN thường được sử dụng trong các trung tâm dữ liệu, phòng thí nghiệm nghiên cứu và các hãng công nghệ lớn.
Các nhà đầu tư từng đặt câu hỏi liệu hàng nghìn tỉ USD chi tiêu cho hạ tầng AI của những tập đoàn công nghệ lớn có thực sự cần thiết hay không, nếu việc huấn luyện mô hình AI yêu cầu ít sức mạnh tính toán hơn.
Jensen Huang nói ngành công nghiệp này vẫn cần sức mạnh điện toán cho các phương pháp hậu huấn luyện, giúp mô hình AI có thể rút ra kết luận hoặc dự đoán sau khi được huấn luyện.
Khi các phương pháp hậu huấn luyện phát triển và đa dạng hơn, nhu cầu về sức mạnh tính toán từ các chip Nvidia cũng sẽ tăng theo, ông cho biết thêm.
Jensen Huang cho rằng nhiều nhà đầu tư có quan niệm đơn giản về AI, nghĩ rằng quá trình phát triển mô hình AI chỉ bao gồm hai giai đoạn là huấn luyện trước và suy luận, trong đó suy luận được hiểu là AI chỉ cần nhận câu hỏi và ngay lập tức trả lời. Tỷ phú 62 tuổi người Mỹ cho rằng quan niệm này là không chính xác.
Suy luận đề cập đến quá trình khi một mô hình AI, sau khi được huấn luyện để nhận diện các mẫu trong tập dữ liệu được chọn lọc, có thể bắt đầu nhận ra các mẫu tương tự trong dữ liệu mới mà nó chưa từng thấy trước đó. Nhờ vậy, mô hình AI có thể suy luận và đưa ra dự đoán tương tự con người.
Jensen Huang nhấn mạnh rằng giai đoạn huấn luyện trước vẫn quan trọng, nhưng hậu huấn luyện mới là "phần quan trọng nhất của trí thông minh" và là nơi AI "học cách giải quyết vấn đề".
Tỷ phú công nghệ nói rằng những tiến bộ của DeepSeek đang tiếp thêm năng lượng cho thế giới AI.
"Thật sự vô cùng hào hứng. Năng lượng trên toàn thế giới khi R1 là mã nguồn mở thật đáng kinh ngạc", Jensen Huang nói.
Các nhà cung cấp dịch vụ đám mây nói với trang Insider rằng nhu cầu với những chip Nvidia mạnh nhất sẽ tiếp tục tăng.
Theo nhà phân tích Dan Morgan thuộc hãng Synovus Trust, tác động lâu dài của DeepSeek là thúc đẩy xu hướng phát triển "các mô hình suy luận tiêu tốn nhiều tài nguyên". Ông ám chỉ các tài nguyên như chip và năng lượng để thực hiện suy luận.
Suy luận ngày càng trở nên quan trọng khi các ứng dụng AI phát triển. "Phần lớn khối lượng tính toán của chúng ta hiện nay thực chất là suy luận và Blackwell sẽ đưa tất cả điều đó lên một tầm cao mới", Jensen Huang nói, nhắc đến Blackwell - thế hệ chip AI mới nhất của Nvidia.
Dù Nvidia vẫn nắm giữ thị phần lớn nhất trong làng chip AI, các nhà phân tích đang dần hình dung một viễn cảnh mà vị thế này không còn chắc chắn như trước.
"Sự cạnh tranh đang bắt đầu ảnh hưởng đến vị thế của Nvidia, dù hiện tại tác động vẫn chưa quá đáng kể", Lucas Keh, nhà phân tích tại hãng Third Bridge, nhận xét.
Sơn Vân