Việc huấn luyện các mô hình AI (trí tuệ nhân tạo) tiên tiến phụ thuộc vào những mạng siêu máy tính có độ tin cậy cao, đủ khả năng truyền dữ liệu nhanh giữa các GPU (bộ xử lý đồ họa).
Để quá trình này nhanh hơn và hiệu quả hơn, OpenAI đã hợp tác với AMD, Broadcom, Intel, Microsoft và Nvidia phát triển MRC (Multipath Reliable Connection), giao thức mới giúp cải thiện hiệu năng và độ ổn định của mạng GPU trong các cụm huấn luyện mô hình AI quy mô lớn.
OpenAI công bố MRC hôm 6/5 thông qua Open Compute Project (OCP), cho phép toàn ngành công nghiệp có thể sử dụng công nghệ này.
OCP là tổ chức quốc tế chuyên xây dựng và chia sẻ các tiêu chuẩn mở cho hạ tầng trung tâm dữ liệu, máy chủ, mạng, lưu trữ và AI. Tổ chức này được Facebook (nay là Meta) khởi xướng vào năm 2011 sau khi công ty tự thiết kế các trung tâm dữ liệu tiết kiệm điện và hiệu quả hơn cho chính mình.
Ý tưởng cốt lõi của OCP là mang tinh thần mã nguồn mở vào phần cứng hạ tầng. Thay vì mỗi công ty tự phát triển hệ thống riêng, các thành viên sẽ cùng chia sẻ thiết kế máy chủ, rack AI, switch, hệ thống nguồn điện và làm mát, tiêu chuẩn kết nối GPU, hạ tầng trung tâm dữ liệu để toàn ngành có thể dùng chung và phát triển tiếp.
Với hơn 900 triệu người sử dụng ChatGPT mỗi tuần, các hệ thống của OpenAI đang dần trở thành hạ tầng cốt lõi cho AI, hỗ trợ cá nhân và doanh nghiệp trên toàn thế giới xây dựng những ứng dụng dựa trên các mô hình ngày càng mạnh hơn.
Trước khi dự án Stargate ra đời, OpenAI đã cùng các đối tác phát triển, triển khai và vận hành ba thế hệ siêu máy tính đầu tiên trong nhiều năm. Chính kinh nghiệm đó khiến OpenAI tin rằng, để khai thác hiệu quả sức mạnh tính toán ở quy mô của Stargate và hoàn thành mục tiêu dài hạn, công ty cần phải thiết kế lại và cắt giảm đáng kể độ phức tạp ở mọi lớp hạ tầng, bao gồm cả mạng kết nối.
Việc công bố đặc tả (mô tả chi tiết) MRC là một phần trong chiến lược điện toán tổng thể của OpenAI. Theo OpenAI, những tiêu chuẩn mở ở các lớp hạ tầng quan trọng có thể giúp các hệ thống AI mở rộng hiệu quả hơn, đáng tin cậy hơn và hoạt động trên hệ sinh thái đối tác rộng lớn hơn.
OpenAI hợp tác với AMD, Broadcom, Intel, Microsoft và Nvidia phát triển MRC. Ảnh: SV
MRC cho phép xây dựng các mạng tốc độ cao nhiều lớp
Trong thông báo trên website của mình, OpenAI giải thích cách MRC cho phép xây dựng các mạng tốc độ cao nhiều lớp để tạo sự dự phòng khi xảy ra lỗi mạng nhưng dùng ít linh kiện và điện năng hơn; cơ chế phân phối dữ liệu linh hoạt của MRC gần như loại bỏ hoàn toàn tình trạng tắc nghẽn ở lõi mạng; cách các hệ thống được triển khai của công ty sử dụng định tuyến nguồn tĩnh để vượt qua lỗi và loại bỏ cả một nhóm lỗi định tuyến truyền thống.
Kết hợp lại, những lợi ích này cho phép OpenAI cung cấp các mô hình AI tốt hơn cho mọi người với tốc độ nhanh hơn.
Định tuyến nguồn tĩnh là cách truyền dữ liệu trong đó thiết bị gửi sẽ xác định sẵn đường đi của gói dữ liệu trước khi gửi đi, thay vì để các router hoặc switch trên mạng tự quyết định từng chặng như mạng truyền thống.
Theo OpenAI, khi huấn luyện các mô hình AI lớn, chỉ một bước tính toán cũng có thể cần tới hàng triệu lần truyền dữ liệu. Chỉ cần một lần truyền đến chậm, toàn bộ tiến trình huấn luyện có thể bị ảnh hưởng dây chuyền, khiến GPU phải chờ đợi và không thể hoạt động hết công suất. Tắc nghẽn mạng, lỗi đường truyền và lỗi thiết bị là những nguyên nhân phổ biến nhất gây ra độ trễ và dao động về tốc độ xử lý.
Những vấn đề này càng trở nên nghiêm trọng khi quy mô cụm máy chủ tăng lên. Đây là lý do công nghệ mạng trở thành một phần trọng yếu trong thiết kế của Stargate, dự án siêu hạ tầng AI mà OpenAI đang theo đuổi.
2 thách thức lớn của OpenAI
Công ty cho biết phải đối mặt với hai thách thức lớn.
Thứ nhất là giảm tối đa khả năng tắc nghẽn mạng. Một số điểm nghẽn là không thể tránh khỏi, chẳng hạn khi hai GPU cùng gửi dữ liệu tới một điểm đích. Song ngoài các trường hợp đó, mạng phải được thiết kế sao cho tránh tắc nghẽn ngay từ đầu.
Thách thức thứ hai là giảm tác động của lỗi mạng lên quá trình huấn luyện. Ở quy mô đủ lớn, ngay cả mạng tốt nhất cũng sẽ liên tục xuất hiện lỗi switch hoặc đường truyền. Trước đây, chỉ một lỗi nhỏ cũng có thể khiến quá trình huấn luyện bị dừng, buộc hệ thống phải khởi động lại từ điểm lưu gần nhất hoặc phải chờ nhiều giây để mạng tính toán lại đường đi dữ liệu.
Những gián đoạn như vậy gây lãng phí lớn về thời gian lẫn tài nguyên GPU. Điều này đặc biệt nghiêm trọng trong huấn luyện đồng bộ, nơi hàng nghìn GPU trên nhiều máy chủ phải hoạt động đồng bộ tuyệt đối để huấn luyện cùng một mô hình AI. OpenAI cho rằng ở quy mô siêu lớn, những lỗi nhỏ như vậy có thể bị khuếch đại, khiến tác động của chúng lớn hơn rất nhiều so với bình thường.
OpenAI, AMD, Broadcom, Intel, Microsoft và Nvidia phát triển MRC trong 2 năm
Để giải quyết vấn đề, OpenAI cho biết mục tiêu của họ không chỉ là xây dựng một mạng nhanh, mà còn phải tạo ra mạng có hiệu năng ổn định và dễ dự đoán ngay cả khi xảy ra lỗi. Trong hai năm qua, nhóm hạ tầng của OpenAI đã phối hợp với AMD, Broadcom, Intel, Microsoft và Nvidia để phát triển phương pháp hoàn toàn mới cho việc xây dựng và vận hành mạng AI.
Kết quả của nỗ lực này là MRC. Đây là giao thức mạng mới được tích hợp vào các card mạng tốc độ 800Gb/s thế hệ mới, cho phép một luồng dữ liệu được phân tán qua hàng trăm đường truyền, tự động tránh lỗi chỉ trong vài micro giây và vận hành bằng hệ thống điều khiển mạng đơn giản hơn nhiều.
MRC được xây dựng dựa trên công nghệ RoCE (RDMA over Converged Ethernet), chuẩn kết nối tốc độ cao cho phép GPU và CPU truyền dữ liệu trực tiếp với nhau mà không cần đi qua nhiều lớp xử lý trung gian, từ đó giúp giảm độ trễ và tăng tốc huấn luyện AI.
OpenAI kết hợp thêm nhiều kỹ thuật mới do Ultra Ethernet Consortium phát triển, đồng thời sử dụng cơ chế định tuyến nguồn SRv6 để hỗ trợ các hệ thống mạng AI quy mô cực lớn với hàng trăm nghìn GPU hoạt động cùng lúc.
Ultra Ethernet Consortium là liên minh công nghiệp được thành lập năm 2023 với sự hỗ trợ của Linux Foundation, nhằm phát triển thế hệ Ethernet mới dành riêng cho AI và điện toán hiệu năng cao (HPC).
Định tuyến nguồn SRv6 là công nghệ cho phép thiết bị gửi dữ liệu tự quyết định toàn bộ đường đi của gói tin trong mạng, thay vì để các switch hay router ở giữa tự tính toán đường đi như mạng truyền thống.
Hiện MRC đã được triển khai trên toàn bộ các siêu máy tính Nvidia GB200 lớn nhất của OpenAI dùng để huấn luyện các mô hình AI tiên tiến, gồm cả hệ thống tại thành phố Abilene (bang Texas, Mỹ) do Oracle Cloud Infrastructure vận hành và các siêu máy tính Fairwater của Microsoft.
Oracle Cloud Infrastructure là nền tảng điện toán đám mây của Oracle, cung cấp hạ tầng để doanh nghiệp chạy ứng dụng, lưu trữ dữ liệu và triển khai AI tương tự Amazon Web Services, Microsoft Azure hay Google Cloud.
OpenAI cho biết MRC đã được sử dụng để huấn luyện nhiều mô hình AI mới của công ty với phần cứng từ Nvidia và Broadcom.
Ngoài ra, OpenAI còn công bố đặc tả MRC dưới dạng đóng góp cho OCP để cộng đồng có thể tiếp tục phát triển.
Sơn Vân