Chủ tịch OpenAI: Phân bổ GPU nội bộ là quá trình đau đớn và khổ sở

Chủ tịch OpenAI: Phân bổ GPU nội bộ là quá trình đau đớn và khổ sở
6 giờ trướcBài gốc
Trong tập podcast Matthew Berman mới đây, Greg Brockman nói rằng việc quản lý nguồn lực quan trọng này là công việc đầy cảm xúc và mệt mỏi.
“Thật khó, vì bạn thấy rất nhiều dự án tuyệt vời, rồi có người đến giới thiệu một ý tưởng tuyệt vời khác, và bạn kiểu như: Đúng, thật tuyệt vời’’, ông nói.
Greg Brockman giải thích rằng công ty chia sức mạnh điện toán của mình thành hai phần là nghiên cứu và sản phẩm ứng dụng. Giám đốc khoa học kiêm trưởng bộ phận nghiên cứu của OpenAI là người quyết định việc phân bổ GPU (bộ xử lý đồ họa) trong nhóm nghiên cứu. Lãnh đạo cấp cao OpenAI, gồm Giám đốc điều hành Sam Altman và giám đốc phụ trách mảng ứng dụng Fidji Simo, quyết định tỷ lệ phân chia tổng thể GPU giữa hai nhóm nghiên cứu với ứng dụng.
Ở cấp độ vận hành, một nhóm nội bộ nhỏ phụ trách việc điều chỉnh lại việc phân bổ GPU. Trong đó Kevin Park chịu trách nhiệm phân phối lại phần cứng này khi các dự án kết thúc.
“Bạn đến gặp anh ấy và nói: Chúng tôi cần thêm từng này GPU cho dự án mới vừa khởi động. Anh ấy đáp: Được rồi, có khoảng 5 dự án đang dần hoàn tất”, Greg Brockman kể lại.
Việc luân chuyển GPU nội bộ như trên phản ánh tình trạng khan hiếm tài nguyên mà OpenAI cảnh báo trong nhiều tháng qua. Greg Brockman cho biết sức mạnh điện toán quyết định năng suất của toàn bộ đội ngũ, vì thế mức độ cạnh tranh rất cao.
“Mọi người đều thực sự quan tâm. Cảm xúc xoay quanh câu hỏi: ‘Tôi có được phần điện toán của mình không?’ là điều bạn không thể đánh giá thấp”, Chủ tịch OpenAI nói thêm.
Greg Brockman nói việc quyết định đội nào trong OpenAI được phân bổ GPU là quá trình “đau đớn và khổ sở” - Ảnh: Getty Images
GPU là bộ xử lý đồ họa mà các nhà nghiên cứu sử dụng để xây dựng, huấn luyện và vận hành các mô hình AI cùng các sản phẩm liên quan. Ban đầu, GPU được thiết kế để xử lý các tác vụ đồ họa phức tạp, như kết xuất hình ảnh 3D trong game hoặc phần mềm thiết kế. Tuy nhiên, ngày nay GPU được sử dụng rộng rãi trong nhiều lĩnh vực vượt xa đồ họa, đặc biệt là AI và học máy.
Lý do là vì GPU có kiến trúc xử lý song song với hàng nghìn lõi tính toán nhỏ, cho phép thực hiện đồng thời rất nhiều phép tính ma trận và vector - những thứ mà AI và mô hình ngôn ngữ cần để huấn luyện và suy luận. Trong khi đó, CPU (bộ xử lý trung tâm) thường chỉ có ít lõi hơn và tối ưu cho các tác vụ tuần tự.
Các GPU của Nvidia, gồm cả H100 và A100, là thành phần then chốt để huấn luyện mô hình AI cũng như dùng trong quá trình suy luận.
Học máy là lĩnh vực thuộc AI, tập trung vào việc nghiên cứu và phát triển các kỹ thuật cho phép hệ thống máy tính học tự động từ dữ liệu để giải quyết các vấn đề cụ thể, mà không cần phải được lập trình tường minh cho từng tác vụ.
Cơn khát GPU
OpenAI đã nhiều lần công khai thừa nhận nhu cầu khổng lồ về sức mạnh điện toán của mình.
“Mỗi khi có thêm GPU, chúng lập tức được sử dụng ngay”, Kevin Weil, Giám đốc sản phẩm OpenAI, tiết lộ trong một tập podcast Moonshot phát hành hồi tháng 8.
Kevin Weil nói rằng nhu cầu này rất rõ ràng: “Càng có nhiều GPU, chúng ta càng sử dụng được nhiều AI hơn”. Ông so sánh rằng việc tăng băng thông internet trước đây đã làm bùng nổ nội dung video và GPU cũng đóng vai trò tương tự với AI.
“GPU giống internet vậy. Mỗi khi chúng ta giảm độ trễ, tăng băng thông trên internet, mọi người sẽ làm được nhiều thứ hơn. Trước đây, việc xem video trên internet là bất khả thi. Giờ thì xem video là chuyện hằng ngày, vì năng lực đã có và mạng lưới có thể đáp ứng được”, Giám đốc sản phẩm OpenAI lý giải.
Chỉ riêng về mặt sản phẩm, Kevin Weil cho biết có một số lĩnh vực có thể sử dụng thêm GPU.
“Chúng tôi có thể dùng GPU để giảm độ trễ, tăng tốc độ tạo token, ra mắt sản phẩm mới, đưa các sản phẩm vốn chỉ dành cho người dùng trả phí cao cấp xuống cho người dùng gói Plus hoặc miễn phí, hoặc đơn giản là chạy thêm nhiều thử nghiệm hơn”, ông nói.
Token là các đơn vị nhỏ của văn bản (có thể là từ, ký tự hoặc một phần của từ) mà mô hình AI xử lý khi tạo ra câu trả lời. Việc tăng tốc tạo token đồng nghĩa làm cho mô hình AI trả lời nhanh hơn, giảm thời gian chờ khi người dùng đặt câu hỏi.
Ngoài ra, OpenAI cũng phải cân bằng nhu cầu của các nhà nghiên cứu. “Ở mảng nghiên cứu, nhu cầu về GPU gần như là vô hạn và đó là lý do chúng tôi đang làm rất nhiều để mở rộng năng lực hạ tầng”, Kevin Weil cho biết.
Kevin Weil ví GPU vớ i Internet - Ảnh: Getty Images
Vào tháng 9, Sam Altman cho biết OpenAI đang tung ra “các dịch vụ mới đòi hỏi sức mạnh điện toán khổng lồ”. Vì chi phí cao, một số tính năng ban đầu sẽ chỉ dành cho người dùng gói Pro, trong khi một số sản phẩm mới sẽ yêu cầu trả thêm phí, theo giám đốc điều hành OpenAI.
Sam Altman coi động thái này là một thử nghiệm trong việc mở rộng cơ sở hạ tầng AI đến giới hạn: “Chúng tôi cũng muốn xem điều gì có thể xảy ra khi dồn thật nhiều sức mạnh điện toán, với chi phí hiện nay, vào những ý tưởng mới thú vị”, ông viết trên X.
Hồi tháng 7, Sam Altman cho biết OpenAI sẽ cần bổ sung hơn 1 triệu GPU trước cuối năm 2025. Để so sánh, công ty khởi nghiệp xAI của Elon Musk tiết lộ đã sử dụng hệ thống hơn 200.000 GPU có tên Colossus để huấn luyện mô hình ngôn ngữ lớn Grok 4.
“Rất tự hào về đội ngũ, nhưng giờ họ cần tìm cách tăng con số đó lên gấp 100 lần”, Sam Altman viết trên mạng xã hội X hồi tháng 7.
Hai ngày sau, Elon Musk (đồng sáng lập OpenAI nay trở thành đối thủ của Sam Altman) nói rằng ông muốn xAI sở hữu số lượng chip tương đương 50 triệu GPU Nvidia H100 trong vòng 5 năm tới.
Trong podcast Access phát hành tháng 9, Giám đốc điều hành Mark Zuckerberg nói rằng Meta Platforms đang biến “sức điện toán trên mỗi nhà nghiên cứu” thành lợi thế cạnh tranh. Ông cho biết công ty mẹ Facebook đang chi tiêu nhiều hơn các đối thủ để mua GPU và xây dựng hạ tầng tùy chỉnh nhằm vận hành chúng.
Cuộc cạnh tranh này là có lý do chính đáng. Jonathan Cohen, Phó chủ tịch phụ trách nghiên cứu ứng dụng Nvidia, nói rằng GPU giống tiền tệ với các nhà nghiên cứu AI.
Sử dụng GPU để thu hút nhân tài
Priscilla Chan, vợ Mark Zuckerberg và là đồng sáng lập Chan Zuckerberg Initiative, cho biết tổ chức từ thiện này sử dụng GPU như công cụ thu hút nhân tài. Trong tập podcast Core Memory hồi tháng 7, Priscilla Chan đã chia sẻ về sức hút của các cụm GPU khổng lồ với nhà nghiên cứu sinh học.
“Một điều mà các nhà nghiên cứu rất quan tâm là khả năng tiếp cận GPU. Bạn sẽ không thể khai thác hết tiềm năng của ai đó nếu không thực sự có GPU để họ làm việc”, cô nhấn mạnh.
Priscilla Chan cho biết: “Chúng tôi có điều đó tại Chan Zuckerberg Initiative”, đồng thời nói thêm rằng tổ chức từ thiện tư nhân này hiện sở hữu khoảng 1.000 GPU trong cụm điện toán của mình và có kế hoạch tiếp tục mở rộng.
Mark Zuckerberg cũng từng nhấn mạnh tầm quan trọng của GPU trong việc thu hút nhân tài.
Meta Platforms đang chi hàng tỉ USD để xây dựng một bộ phận AI mới là Superintelligence Labs, tập trung phát triển siêu trí tuệ cá nhân cho mọi người. Ngoài tiền lương thưởng, những nhân tài AI mà ông từng trò chuyện còn quan tâm đến hai điều khác.
“Trước đây, khi tôi tuyển người cho các bộ phận khác nhau trong công ty, họ thường hỏi: ‘Phạm vi công việc của tôi sẽ như thế nào?’. Còn bây giờ, nhiều người nói: ‘Tôi muốn số lượng người báo cáo cho tôi (cấp dưới - PV) càng ít càng tốt và càng nhiều GPU càng tốt”, Mark Zuckerberg tiết lộ.
Tất nhiên, Meta Platforms sở hữu nhiều GPU hơn Chan Zuckerberg Initiative rất nhiều. Mark Zuckerberg cho biết đến cuối năm 2025, công ty sẽ có 1,3 triệu GPU phục vụ cho AI.
“Về cơ bản, việc sở hữu lượng tài nguyên điện toán lớn nhất cho mỗi nhà nghiên cứu AI rõ ràng là một lợi thế chiến lược, không chỉ để thực hiện công việc mà còn thu hút những người giỏi nhất”, Mark Zuckerberg nhấn mạnh.
Cung cấp dòng GPU H100 nổi đình nổi đám khi cuộc đua AI bắt đầu hồi năm 2023, Nvidia được xem là công ty dẫn đầu trong lĩnh vực này và đã bán ra các dòng chip mạnh mẽ hơn kể từ đó.
Những lãnh đạo công ty khác đang tuyển dụng nhân tài trong lĩnh vực AI cũng xác nhận xu hướng này.
Aravind Srinivas, Giám đốc điều hành công ty khởi nghiệp Perplexity, từng kể lại chuyện ông cố lôi kéo một nhà nghiên cứu AI từ Meta Platforms nhưng bị từ chối thẳng thừng. “Khi nào anh có 10.000 GPU H100 thì quay lại gặp tôi!”, người này nói, theo Aravind Srinivas.
“Bạn phải đưa ra mức đãi ngộ cực kỳ hấp dẫn kèm với khả năng tiếp cận tức thì vào năng lực điện toán. Chúng ta không nói đến vài cụm máy nhỏ lẻ ở đây”, Aravind Srinivas cho hay.
Sơn Vân
Nguồn Một Thế Giới : https://1thegioi.vn/chu-tich-openai-phan-bo-gpu-noi-bo-la-qua-trinh-dau-don-va-kho-so-238722.html