Sự bùng nổ của trí tuệ nhân tạo (AI) tạo sinh đang làm thay đổi cách thế giới vận hành công nghệ. Các mô hình ngôn ngữ lớn của OpenAI, Google hay Meta Platforms phải xử lý hàng nghìn tỉ phép tính ma trận mỗi giây trong quá trình huấn luyện và khi vận hành thực tế. Điều đó tạo ra nhu cầu khổng lồ về năng lực xử lý dữ liệu, thứ mà chỉ các GPU (bộ xử lý đồ họa) hiệu suất cao mới đáp ứng được.
Không giống CPU (bộ xử lý trung tâm) truyền thống vốn thiết kế để xử lý tuần tự từng tác vụ, GPU (bộ xử lý đồ họa) có khả năng xử lý song song hàng nghìn tác vụ cùng lúc. Điều này khiến GPU trở thành “trái tim tính toán” của mọi hệ thống AI hiện đại.
Các GPU cao cấp của Nvidia như A100, H100 hay GB200 thuộc dòng Blackwell không chỉ mang đến sức mạnh phần cứng vượt trội, mà còn được tích hợp phần mềm tối ưu như CUDA và cuDNN - yếu tố khiến các nhà phát triển AI khó tìm được giải pháp thay thế.
CUDA (Compute Unified Device Architecture) là nền tảng và môi trường lập trình do Nvidia phát triển, cho phép lập trình viên sử dụng GPU không chỉ để xử lý đồ họa mà còn để thực hiện các tác vụ tính toán tổng quát, đặc biệt trong các lĩnh vực như AI, mô phỏng khoa học, xử lý ảnh và dữ liệu lớn.
Nếu coi GPU là một cỗ máy tính mini với hàng nghìn lõi xử lý, CUDA chính là ngôn ngữ và bộ công cụ cho phép bạn điều khiển cỗ máy đó. Trước đây, GPU chỉ xử lý đồ họa và game. Nhờ CUDA, GPU có thể thực hiện các phép tính “phi đồ họa”, ví dụ huấn luyện AI hay giải phương trình khoa học.
cuDNN (CUDA Deep Neural Network library) là thư viện tối ưu hóa do Nvidia phát triển, chuyên dùng để tăng tốc quá trình huấn luyện và suy luận của các mô hình học sâu trên GPU.
Khi cuộc đua AI tăng tốc, các trung tâm dữ liệu được xây dựng khắp nơi ở Mỹ, châu Âu và châu Á. Các gã khổng lồ công nghệ Microsoft, Google, Amazon, Meta Platforms hay công ty khởi nghiệp OpenAI, xAI, Anthropic đều đầu tư hàng chục đến hàng trăm tỉ USD để mở rộng hạ tầng điện toán.
Trước đây, trung tâm dữ liệu chỉ được đo bằng diện tích hay số máy chủ. Ngày nay, chúng được đo bằng công suất điện toán theo gigawatt điện.
Theo công ty dịch vụ tài chính và phân tích đầu tư TD Cowen (Mỹ), mỗi gigawatt tương đương công suất của một lò phản ứng hạt nhân. Dữ liệu của TD Cowen cho thấy mỗi gigawatt tương đương với hơn 1 triệu GPU. Điều này giải thích vì sao Nvidia trở thành “ông vua” trong cuộc đua AI.
AI càng phát triển, nhu cầu với GPU càng tăng, tạo ra một thị trường khổng lồ trị giá hàng trăm tỉ USD. Không chỉ bán phần cứng, Nvidia còn kiểm soát toàn bộ hệ sinh thái phần mềm, khiến mỗi USD chi tiêu cho AI gần như đều phải “đi qua” gã khổng lồ công nghệ Mỹ, từ chip, thư viện lập trình, hệ thống điện toán đến các giải pháp kết nối GPU trong cụm máy chủ.
Đó là lý do chính giúp Nvidia trở thành công ty đầu tiên đạt mốc vốn hóa thị trường 5.000 tỉ USD hôm 29.10 vừa qua, không lâu sau khi thông báo xây dựng 7 siêu máy tính AI cho Bộ Năng lượng Mỹ và loạt thỏa thuận với Nokia, Palantir Technologies, Uber.
AI càng phát triển thì nhu cầu với GPU của Nvidia càng tăng, biến công ty ‘nhà máy in tiền’ - Ảnh: MTG
Nếu muốn hiểu lý do tại sao Nvidia có vốn hóa thị trường 5.000 tỉ USD, bạn hãy nhìn sâu vào dữ liệu về các trung tâm dữ liệu AI.
Cơ cấu chi phí 35 tỉ USD cho trung tâm dữ liệu AI công suất 1 gigawatt, sử dụng GPU GB200 và hệ thống máy chủ NVL72 của Nvidia:
AI công nghiệp hóa: Gigawatt là đơn vị mới
Ngày nay, các trung tâm dữ liệu AI không còn chỉ được đo bằng diện tích hay số lượng máy chủ, mà bằng công suất tính toán theo gigawatt.
Theo các nhà phân tích của TD Cowen, một gigawatt tương đương công suất của một lò phản ứng hạt nhân. Đây là tiêu chuẩn mới để đánh giá các trung tâm dữ liệu AI thế hệ tiếp theo, gồm cả Colossus 2 của xAI ở bang Tennessee (Mỹ), Prometheus của Meta Platforms tại bang Ohio (Mỹ), Hyperion ở bang Louisiana (Mỹ), Stargate của OpenAI và Mount Rainier của Amazon tại bang Indiana (Mỹ).
Các trung tâm dữ liệu không chỉ là những tòa nhà khổng lồ với máy chủ đặt dày đặc, mà là hệ sinh thái điện, chip và mạng lưới kết nối phức tạp, nơi mỗi gigawatt công suất đại diện cho cả vốn, năng lượng và AI. Theo công ty nghiên cứu Bernstein Research, 1 gigawatt trung tâm dữ liệu AI có giá khoảng 35 tỉ USD, con số nghe tưởng khủng khiếp nhưng chính là nền tảng kinh tế mới của AI.
Mỗi gigawatt không chỉ là thước đo sức mạnh điện toán mà còn là đại diện cho hệ sinh thái công nghiệp đang nổi lên, gồm: chip, thiết bị mạng, hệ thống điện, hạ tầng làm mát, xây dựng, bất động sản và nhân lực. Nvidia là cái tên đứng ở trung tâm của toàn bộ chuỗi giá trị này.
GPU
Không có gì ngạc nhiên khi GPU chiếm phần lớn chi phí của trung tâm dữ liệu AI. Theo Bernstein Research, GPU chiếm tới 39% tổng chi phí đầu tư trong một trung tâm dữ liệu 1 gigawatt, chủ yếu là GPU GB200 và các dòng chip AI sắp ra mắt khác như Nvidia Rubin.
Với biên lợi nhuận gộp lên tới 70%, Nvidia được Bernstein Research dự đoán thu về gần 30% tổng chi tiêu trung tâm dữ liệu AI dưới dạng lợi nhuận.
Dữ liệu từ TD Cowen chỉ ra rằng mỗi gigawatt công suất tương đương với hơn 1 triệu GPU. Chỉ riêng TSMC, đối tác sản xuất chip chính cho Nvidia, có thể kiếm 1,3 tỉ USD mỗi gigawatt từ việc sản xuất những linh kiện này. TSMC (Đài Loan) là hãng sản xuất chip theo hợp đồng lớn nhất thế giới.
AMD và Intel đang cố gắng bắt kịp Nvidia. Trong khi Google, Amazon và Microsoft đầu tư mạnh vào các bộ tăng tốc AI tùy chỉnh (ASIC), nhưng GPU vẫn là trọng tâm kinh tế.
Mạng lưới kết nối
Nếu GPU là bộ não, mạng lưới kết nối chính là hệ tuần hoàn của trung tâm dữ liệu AI. Bernstein Research ước tính chi phí thiết bị mạng chiếm khoảng 13% tổng chi phí trung tâm dữ liệu, gồm switch tốc độ cao, cáp quang và các linh kiện kết nối.
Những công ty như Arista Networks, Broadcom và Marvell hưởng lợi trực tiếp từ việc cung cấp switch và thiết kế chip mạng. Các nhà sản xuất linh kiện như Amphenol và Luxshare được lợi từ việc cung cấp cáp và đầu nối, còn nhà sản xuất transceiver quang như InnoLight, Eoptolink và Coherent cũng có cơ hội kiếm lợi nhuận đáng kể.
Transceiver quang là thiết bị vừa truyền vừa nhận tín hiệu dữ liệu bằng ánh sáng qua sợi quang.
Hệ thống mạng không chỉ truyền dữ liệu, mà còn đảm bảo tốc độ và độ tin cậy để GPU hoạt động hiệu quả. Trong các trung tâm dữ liệu AI 1 gigawatt, mạng lưới này là yếu tố sống còn, quyết định khả năng xử lý hàng triệu phép tính mỗi giây.
Hạ tầng điện và làm mát
Hạ tầng vật lý xung quanh các kệ chuyên dụng, máy phát điện, biến áp và nguồn điện dự phòng chiếm phần lớn chi phí của trung tâm dữ liệu AI 1 gigawatt. Chỉ riêng phân phối điện đã chiếm gần 10% chi tiêu, theo Bernstein Research.
Eaton, Schneider Electric, ABB và Vertiv là những cái tên lớn trong lĩnh vực này. Vertiv cũng có cơ hội trong lĩnh vực quản lý nhiệt, chiếm khoảng 4% tổng chi tiêu, được chia đều giữa hệ thống làm mát bằng không khí và chất lỏng, theo ước tính của Bernstein Research.
Hạ tầng điện và làm mát không chỉ giúp bảo vệ GPU khỏi quá nhiệt, mà còn tối đa hóa hiệu suất tính toán, giữ cho trung tâm dữ liệu AI vận hành liên tục 24/7.
Bất động sản, điện và nhân lực
Đất và xây dựng cơ sở hạ tầng chiếm khoảng 11% chi phí ban đầu, tương đối nhỏ so với GPU và hạ tầng điện. Khi đi vào vận hành, chi phí điện năng trở thành yếu tố chính: Chạy một trung tâm dữ liệu AI 1 gigawatt trong 1 năm tiêu tốn khoảng 1,3 tỉ USD tiền điện.
Điều thú vị là nhân lực không phải là chi phí lớn. Một trung tâm dữ liệu quy mô lớn có thể vận hành chỉ với 8-10 nhân viên, mức lương từ 30.000 đến 80.000 USD/năm.
Thách thức lớn lại nằm ở nguồn điện ổn định. Các công ty như Siemens Energy, GE Vernova và Mitsubishi Heavy hiện ghi nhận đơn hàng tăng vọt cho tuabin và hạ tầng lưới điện, khi các hyperscaler cạnh tranh để đảm bảo điện đáng tin cậy cho các trung tâm dữ liệu AI.
Tuabin là một thiết bị biến đổi năng lượng của dòng chất lỏng chuyển động (như nước, gió, hơi nước hoặc khí nóng) thành năng lượng cơ học quay. Sau đó, năng lượng cơ học này thường được dùng để phát điện, nén khí hoặc vận hành máy móc.
Hyperscaler là thuật ngữ dùng để chỉ các công ty công nghệ vận hành hệ thống điện toán đám mây và trung tâm dữ liệu quy mô cực lớn, có khả năng mở rộng nhanh chóng để xử lý khối lượng khổng lồ về dữ liệu, AI và dịch vụ trực tuyến.
Sơn Vân