Cụ thể công ty khởi nghiệp AI Cohere phàn nàn hai chip Trainium 1 lẫn Trainium 2 hoạt động kém hiệu quả hơn Nividia H100, đặc biệt khả năng truy cập Trainium 2 “vô cùng hạn chế” và thường xuyên bị gián đoạn dịch vụ. Amazon cùng nhóm phụ trách Annapurna Labs đang tiến hành kiểm tra, nhưng quá trình giải quyết vấn đề chưa đạt tiến bộ.
Ngoài Cohere, một công ty khởi nghiệp khác là Stability AI cũng bày tỏ quan ngại tương tự với Trainium 2. Họ đánh giá chip này kém cạnh tranh về tốc độ lẫn chi phí khi đặt cạnh H100.
Nhận phản hồi thua kém sản phẩm đối thủ còn có dòng Inferentia, Công ty khởi nghiệp Typhoon đánh giá Nvidia A100 đời cũ hơn lại tiết kiệm chi phí hơn Inferentia 2 đến 3 lần. Thời gian qua xuất hiện thông tin một số khách hàng lớn của dịch vụ đám mây AWS không sẵn lòng dùng chip Amazon tự sản xuất, Trainium 1 cùng Inferentia 2 còn tồn tại lỗi phần mềm và khả năng mở rộng chưa thực sự hiệu quả cho các tác vụ AI tạo sinh.
Trước phàn nàn từ khách hàng, Amazon tuyên bố trường hợp Cohere gặp phải không phổ biến, tất cả phản hồi sẽ giúp tập đoàn cải tiến sản phẩm. Họ còn khẳng định dòng Inferentia đã đạt không ít kết quả tích cực từ khách hàng như Ricoh, Datadog, Metagenomi.
Các chip AI do Amazon tự phát triển - Ảnh: Joseph Huerta/CNBC
Amazon mạnh tay đầu tư phát triển 2 dòng chip Trainium cùng Inferentia nhằm tối ưu hóa hiệu suất và giảm chi phí cho các tác vụ học sâu trên AWS. Dòng đầu chuyên dùng đào tạo mô hình AI lớn đòi hỏi nhiều sức mạnh tính toán, còn dòng sau chuyên suy luận (chạy các mô hình đã được đào tạo qua ứng dụng thực tế). Ở giai đoạn hiện tại, tập đoàn đặc mục tiêu giảm dần sự phụ thuộc vào sản phẩm Nvidia mà vẫn cung cấp dịch vụ đám mây tiên tiến.
So sánh chip AI của Amazon và Nvidia
Trainium 1 sở hữu 2 lõi NeuronCore-v2, đạt hiệu suất tính toán 420 TOPS (INT8) và 190 TFLOPS (BF16/FP16), băng thông bộ nhớ 820GB/giây, dựa trên quy trình 7nm. Trainium 2 cũng có 2 lõi NeuronCore-v2, hiệu suất tính toán 83,2 petaFLOPS (FP8) , băng thông bộ nhớ 2,9TB/giây, dựa trên quy trình 5nm.
Dòng H100 gồm 2 sản phẩm. Chip SXM đạt hiệu suất tính toán 3.958 teraFLOPS (FP8) và 26 TFLOPS (FP64), băng thông bộ nhớ 3,35TB/giây. Chip PCle hiệu suất tính toán 3.026 teraFLOPS (FP8) và 26 TFLOPS (FP64), băng thông bộ nhớ 2TB/giây. Cả hai đều dựa trên quy trình 4nm.
Nvidia H100 nổi tiếng với hiệu suất mạnh mẽ hàng đầu - Ảnh: WCCF Tech
Inferentia 1 dựa trên quy trình 16nm, đạt hiệu suất tính toán 64 TFLOPS (FP16/BF16) và 128 TOPS (INT8), băng thông bộ nhớ 50GB/giây. Inferentia 2 dựa trên quy trình 7nm, hiệu suất tính toán 190 TFLOPS (FP16/BF16) và 380 TOPS (INT8), băng thông bộ nhớ 820GB/giây.
Như H100, A100 cũng chia thành SXM cùng PCle. Chip SXM đạt hiệu suất tính toán 19.5 TFLOPS (FP32) - 9.7 TFLOPS (FP64) - 1.248 TOPS (INT8), băng thông bộ nhớ 2.039GB/giây. Chip PCle có hiệu suất tính toán tương đồng, băng thông bộ nhớ 1.935GB/giây. Cả hai đều dựa trên tiến trình 7nm.
Chip Amazon chủ yếu phục vụ công việc AI cụ thể chạy trên AWS, còn chip Nvidia được thiết kế như công cụ mạnh mẽ cho nhiều tác vụ khác nhau. Hệ sinh thái phần mềm cho chip Nividia đã hoàn thiện và vô cùng tiên tiến – điều mà Amazon chưa xây dựng được cho chip của mình.
Con đường gian nan
Loạt phàn nàn nêu trên là đòn giáng mạnh vào nỗ lực tự chủ chip AI mà Amazon đang theo đuổi, đồng thời khẳng định Nvidia vẫn giữ vị thế chiếm lĩnh thị trường bằng chất lượng sản phẩm vượt trội. Con đường phía trước mà Amazon phải đi chắc chắn rất khó khăn, đặc biệt khi “ông lớn” ngành chip toàn cầu không ngừng củng cố vị thế bằng nhiều sản phẩm đủ sức đáp ứng phát triển AI ngày càng lớn.
Tuy nhiên cần lưu ý rằng không khách hàng nào phàn nàn chip Amazon là tệ cả. Khả năng chiếm thêm thị phần của chúng chưa bị đóng lại.
Cẩm Bình