Trong cuộc đua AI toàn cầu, người ta thường chú ý nhiều nhất đến những mô hình AI nổi tiếng như GPT, Gemini, Claude hoặc chip AI ngày càng mạnh mẽ. Song phía sau những công nghệ hào nhoáng đó còn tồn tại cuộc cạnh tranh ít được biết đến hơn: Xây dựng hạ tầng kết nối cho các siêu cụm máy tính AI.
Đây là nền tảng giúp hàng chục nghìn chip AI hoạt động cùng lúc và trao đổi dữ liệu với tốc độ cực cao, yếu tố quyết định để huấn luyện các mô hình ngôn ngữ lớn hiện nay.
Mới đây, AMD, Broadcom, Microsoft, Meta Platforms, Nvidia và OpenAI đã công bố thành lập OCI MSA (Optical Compute Interconnect Multi-Source Agreement) - liên minh công nghệ nhằm xây dựng một chuẩn kết nối quang học mở cho các hạ tầng AI quy mô lớn. Chuẩn này sẽ giúp các trung tâm dữ liệu kết nối hàng nghìn hoặc hàng chục nghìn GPU (bộ xử lý đồ họa) với tốc độ cao hơn nhiều so với công nghệ hiện nay.
Rack là khung tủ tiêu chuẩn dùng để lắp và sắp xếp các thiết bị máy tính như máy chủ, GPU, thiết bị mạng và hệ thống lưu trữ. Nói đơn giản, rack giống chiếc tủ kim loại cao trong đó xếp nhiều máy chủ lên các tầng để tiết kiệm không gian và dễ quản lý.
AMD, Broadcom, Microsoft, Meta Platforms, Nvidia và OpenAI cùng xây dựng một chuẩn kết nối quang học mở cho các hạ tầng AI quy mô lớn - Ảnh: MTG
Mục tiêu của OCI MSA là phát triển một lớp vật lý quang học chung có thể hoạt động với nhiều giao thức kết nối khác nhau, từ đó tạo ra một hệ sinh thái phần cứng linh hoạt cho các trung tâm dữ liệu AI.
Công nghệ này sẽ cho phép kết nối GPU, CPU (bộ xử lý trung tâm) và các bộ tăng tốc AI khác; truyền dữ liệu ở tốc độ cực cao; giảm mức tiêu thụ điện năng; mở rộng quy mô hệ thống AI dễ dàng hơn.
Một điểm đáng chú ý là OCI MSA không chỉ do các hãng sản xuất chip dẫn dắt. Thay vào đó, những công ty vận hành các trung tâm dữ liệu AI khổng lồ như Microsoft, Meta và OpenAI đóng vai trò rất quan trọng trong việc định hình chuẩn kết nối này. Điều đó khác với nhiều tiêu chuẩn công nghệ trước đây, vốn chủ yếu do các nhà sản xuất phần cứng đề xuất và phát triển.
Lý do vì các công ty AI nổi tiếng đó cần hạ tầng mạnh nhất. Để huấn luyện các mô hình AI khổng lồ, họ phải xây dựng các siêu cụm máy tính với hàng chục nghìn GPU hoạt động cùng lúc, nên muốn trực tiếp tham gia thiết kế chuẩn kết nối giữa các chip ngay từ đầu.
Ít nhất trong giai đoạn đầu, OCI MSA tập trung phát triển chuẩn kết nối quang tầm ngắn để các chip AI từ nhiều hãng như AMD, Nvidia hay Broadcom có thể hoạt động trên cùng một hạ tầng sợi quang.
“Nvidia là thành viên sáng lập của OCI MSA nhằm xây dựng một tiêu chuẩn quang học chung cho hạ tầng AI trên toàn cầu. Bằng cách kết hợp sức mạnh tính toán hàng đầu với công nghệ quang học tiên tiến, OCI MSA có thể mang lại quy mô và hiệu năng cần thiết cho kỷ nguyên siêu trí tuệ tiếp theo”, ông Gilad Shainer, Phó chủ tịch cấp cao phụ trách mảng mạng của Nvidia, cho biết.
Vì sao ngành AI cần một chuẩn kết nối mới?
Vài năm trở lại đây, quy mô của các mô hình AI tăng lên rất nhanh. Những mô hình AI mới thường phải chạy trên các siêu cụm máy tính gồm hàng chục nghìn GPU, xử lý lượng dữ liệu lên tới hàng trăm petabyte và tiêu thụ hàng trăm megawatt điện.
Ở quy mô lớn như vậy, vấn đề không còn chỉ nằm ở việc chip mạnh đến đâu, mà là tốc độ các chip có thể trao đổi dữ liệu với nhau. Nhiều trung tâm dữ liệu hiện vẫn dùng cáp đồng để kết nối các GPU, song công nghệ này đang dần chạm tới giới hạn vật lý.
Theo các nghiên cứu ngành bán dẫn, tín hiệu điện truyền qua cáp đồng sẽ suy giảm nhanh khi tốc độ và khoảng cách tăng lên, nên chỉ phù hợp với các kết nối cực ngắn.
Vì vậy, khi các cụm AI mở rộng từ vài trăm GPU lên tới hàng nghìn GPU và trải rộng qua nhiều rack, cáp đồng không còn đủ băng thông để đáp ứng nhu cầu. Đây chính là lý do ngành công nghệ bắt đầu chuyển sang kết nối quang học.
Kết nối quang học: Chìa khóa cho siêu cụm AI
Chuẩn của OCI MSA tập trung vào việc sử dụng sợi quang để truyền dữ liệu giữa các chip AI trong trung tâm dữ liệu. So với cáp đồng truyền thống, sợi quang có thể truyền dữ liệu nhanh hơn, xa hơn và ổn định hơn, đặc biệt khi các hệ thống AI ngày càng mở rộng quy mô.
Theo thiết kế ban đầu, chuẩn kết nối của OCI MSA sẽ đạt tốc độ khoảng 200 gigabit/giây cho mỗi hướng truyền dữ liệu. Trong tương lai, tốc độ này có thể tăng lên 800 gigabit/giây trên mỗi sợi quang và xa hơn nữa là 3,2 terabit/giây khi công nghệ tiếp tục được cải tiến.
Để đạt được tốc độ rất cao này, hệ thống sử dụng công nghệ ghép kênh bước sóng (WDM), cho phép nhiều tín hiệu ánh sáng với bước sóng khác nhau truyền đồng thời trên cùng một sợi quang.
Ngoài ra, chuẩn kết nối của OCI MSA cũng được thiết kế linh hoạt để hỗ trợ nhiều dạng phần cứng khác nhau trong trung tâm dữ liệu. Ví dụ, chuẩn này có thể dùng với mô đun quang cắm rời, các thiết bị quang học gắn trực tiếp trên bo mạch hoặc co-packaged optics (công nghệ tích hợp linh kiện quang học trực tiếp vào chip).
Nhờ cách tiếp cận đó, các hãng sản xuất chip và nhà vận hành trung tâm dữ liệu có thể tùy chọn kiến trúc phần cứng phù hợp nhất với hệ thống AI của mình, thay vì bị giới hạn bởi một thiết kế cố định.
Các hãng công nghệ bắt đầu chuyển sang kết nối quang học thay cho cáp đồng - Ảnh: Internet
Một chuẩn mở để các hệ sinh thái cạnh tranh cùng tồn tại
Trong OCI MSA, hạ tầng kết nối quang học được thiết kế không phụ thuộc vào một giao thức duy nhất. Chẳng hạn, GPU của Nvidia hiện sử dụng công nghệ kết nối NVLink, còn AMD đang phát triển chuẩn UALink cho các hệ thống AI.
OCI MSA sẽ xây dựng một lớp kết nối quang học chung ở bên dưới, để các giao thức khác nhau này có thể cùng hoạt động trên cùng hạ tầng sợi quang.
Nhờ đó, các trung tâm dữ liệu AI có thể linh hoạt hơn khi xây dựng hệ thống, chẳng hạn kết hợp nhiều loại chip từ các hãng khác nhau nhưng vẫn sử dụng chung mạng kết nối quang học. Cách tiếp cận này giúp việc mở rộng hệ thống AI dễ dàng hơn, đồng thời giảm chi phí triển khai hạ tầng. Đây là điều đặc biệt quan trọng khi các hãng công nghệ đang chi hàng trăm tỉ USD để xây dựng các trung tâm dữ liệu AI quy mô lớn.
Cuộc đua hạ tầng AI đang nóng hơn bao giờ hết
Sự ra đời của OCI MSA diễn ra trong bối cảnh các hãng công nghệ đang đẩy mạnh đầu tư vào hạ tầng AI với quy mô chưa từng có. Nhiều công ty trong chính liên minh OCI MSA gần đây đã ký các thỏa thuận bom tấn để mua chip AI.
Trong tháng 2, Meta đã ký các thỏa thuận với Nvidia và AMD để mua lượng chip trị giá hàng chục tỉ USD.
Hôm 24.2, AMD cho biết đã đồng ý bán tới 60 tỉ USD chip AI cho Meta trong 5 năm, một thỏa thuận cho phép công ty mẹ Facebook mua tới 10% cổ phần của hãng chip Mỹ.
AMD sẽ cung cấp cho Meta lượng chip AI tương đương công suất 6 gigawatt, bắt đầu với 1 gigawatt từ sản phẩm chủ lực MI450 sắp ra mắt của công ty vào nửa cuối năm 2026.
Ngoài GPU AMD, Meta Platforms có kế hoạch mua CPU, gồm cả phiên bản được tùy chỉnh theo nhu cầu của gã khổng lồ mạng xã hội này.
Ngày 17.2, Nvidia thông báo đã ký thỏa thuận kéo dài nhiều năm để bán cho Meta hàng triệu chip AI hiện tại và tương lai, gồm cả CPU cạnh tranh với sản phẩm của AMD và Intel.
Nvidia không tiết lộ giá trị nhưng cho biết thỏa thuận này gồm các GPU Blackwell hiện tại cũng như phiên bản Rubin sắp ra mắt. Thỏa thuận cũng gồm cả việc triển khai độc lập các CPU Grace và Vera của Nvidia.
Những GPU này được Meta sử dụng để huấn luyện các mô hình AI như Llama, vận hành hệ thống AI phục vụ quảng cáo, gợi ý nội dung và nhiều tính năng AI trong các ứng dụng của công ty. Để phục vụ các dự án này, Meta đã xây dựng nhiều cụm siêu máy tính AI với hàng chục nghìn GPU.
Trong khi đó, OpenAI đã ký một số thỏa thuận lớn liên quan đến chip AI và hạ tầng tính toán với Nvidia cùng Broadcom, nhằm đảm bảo đủ năng lực tính toán cho việc huấn luyện và vận hành các mô hình AI ngày càng lớn.
Hôm 27.2, OpenAI thông báo về vòng gọi vốn mới với tổng cam kết đầu tư lên tới 110 tỉ USD, định giá công ty ở mức khoảng 840 tỉ USD. Đây là mức cao nhất từng ghi nhận với một hãng công nghệ tư nhân.
Vòng gọi vốn kỷ lục gồm khoản đầu tư 30 tỉ USD từ Nvidia, 30 tỉ USD từ SoftBank và 50 tỉ USD từ Amazon, diễn ra trước đợt IPO (chào bán cổ phiếu lần đầu ra công chúng) quy mô lớn mà OpenAI dự kiến thực hiện cuối năm 2026 hoặc đầu 2027.
OpenAI thông báo sẽ mở rộng hợp tác lâu dài với Nvidia, gồm cả việc sử dụng 3 gigawatt năng lực suy luận chuyên dụng và 2 gigawatt năng lực huấn luyện trên các hệ thống Vera Rubin thế hệ mới sắp được bán ra, tiếp nối hệ thống Hopper và Blackwell đã triển khai trước đó.
Theo Nvidia, Vera Rubin được cấu thành từ 1,3 triệu linh kiện, sẽ mang lại hiệu năng trên mỗi watt cao hơn gấp 10 lần so với hệ thống trước đó là Grace Blackwell.
Hồi tháng 10.2025, OpenAI cho biết sẽ hợp tác cùng Broadcom để sản xuất các chip AI đầu tiên do hãng thiết kế, trong nỗ lực đảm bảo sức mạnh điện toán nhằm đáp ứng nhu cầu ngày càng tăng với các dịch vụ của mình.
Hai công ty thông báo OpenAI sẽ chịu trách nhiệm thiết kế chip AI, còn Broadcom sẽ phát triển và triển khai chúng bắt đầu từ nửa sau năm 2026. Họ dự kiến tung ra số chip AI tùy chỉnh có tổng công suất 10 gigawatt, tương đương mức tiêu thụ điện của hơn 8 triệu hộ gia đình Mỹ, hoặc gấp 5 lần lượng điện do đập Hoover sản xuất.
Hoover là con đập khổng lồ nằm trên sông Colorado, tại ranh giới giữa hai bang Nevada và Arizona của Mỹ.
Hạ tầng - chi phí lớn nhất của kỷ nguyên AI
Chi phí xây dựng các trung tâm dữ liệu AI hiện nay cực kỳ lớn. Một siêu trung tâm dữ liệu AI có thể cần hàng trăm nghìn GPU, điện năng hàng gigawatt, hệ thống làm mát cực kỳ phức tạp. Chính vì vậy, các hãng công nghệ đang tìm cách chuẩn hóa hạ tầng AI, giảm chi phí triển khai, tăng khả năng mở rộng hệ thống. OCI MSA được xem là một bước đi quan trọng theo hướng này.
Liên minh hợp tác nhưng vẫn cạnh tranh
Một điểm thú vị của OCI MSA là các công ty tham gia vừa hợp tác vừa cạnh tranh với nhau.
Ví dụ, Nvidia và AMD cạnh tranh trực tiếp trên thị trường chip AI. Microsoft, OpenAI và Meta đối đầu trong lĩnh vực nền tảng AI.
Song về hạ tầng AI, họ vẫn cần một chuẩn kết nối quang học chung để toàn ngành có thể phát triển nhanh hơn. Điều này tương tự cách ngành công nghệ từng hợp tác xây dựng các chuẩn như Ethernet, PCI Express, USB.
Theo các dự báo ngành bán dẫn, kết nối quang học sẽ đóng vai trò ngày càng lớn trong trung tâm dữ liệu AI. Các công nghệ như silicon photonics, co-packaged optics, optical I/O được kỳ vọng sẽ trở thành nền tảng cho các siêu máy tính AI thế hệ mới.
Silicon photonics sử dụng chip silicon để tạo và điều khiển ánh sáng nhằm truyền dữ liệu. Thay vì truyền tín hiệu điện qua dây đồng, dữ liệu được truyền dưới dạng tín hiệu ánh sáng qua sợi quang.
Co-packaged optics đặt các linh kiện quang học ngay cạnh chip xử lý hoặc chip mạng trong cùng một mô đun.
Optical I/O kết nối trực tiếp chip xử lý với sợi quang, cho phép dữ liệu đi vào và ra khỏi chip bằng ánh sáng.
Theo hãng nghiên cứu thị trường TrendForce, tỷ lệ sử dụng co-packaged optics trong các trung tâm dữ liệu AI có thể tăng lên khoảng 35% vào năm 2030 khi các hệ thống AI tiếp tục mở rộng quy mô. Điều này cho thấy tầm quan trọng chiến lược của các sáng kiến như OCI MSA.
Sơn Vân