Bên trong một trung tâm dữ liệu của Amazon
Trọng tâm của bản hợp đồng xoay quanh việc khai thác sức mạnh từ dòng chip nguyên khối khổng lồ mang tên Wafer-Scale Engine của Cerebras. Khác với các giai đoạn trước, hệ thống phần cứng mới này sẽ tập trung phục vụ các tác vụ suy luận (inference), khâu quyết định giúp các mô hình thông minh tạo ra câu trả lời trực tiếp cho người dùng.
Thỏa thuận giữa nhà cung cấp dịch vụ đám mây lớn nhất thế giới và một thế lực bán dẫn mới nổi phơi bày một sự chuyển dịch sâu sắc trên bản đồ điện toán toàn cầu. Ngành công nghiệp trí tuệ nhân tạo đang bước qua giai đoạn huấn luyện mô hình tốn kém để tiến thẳng vào kỷ nguyên suy luận tốc độ cao.
Các nhà phát triển công cụ thông minh nhận ra rằng các bộ xử lý đồ họa (GPU) truyền thống dù sở hữu sức mạnh tính toán tuyệt vời cho khâu huấn luyện lại bộc lộ nhiều điểm nghẽn khi phải xử lý các luồng suy luận đòi hỏi tốc độ phản hồi tức thời. Nhu cầu đa dạng hóa chuỗi cung ứng phần cứng đang trở nên vô cùng cấp thiết khi các công ty công nghệ phải phục vụ hàng triệu người dùng mới mỗi ngày.
Sự dịch chuyển trọng tâm thị trường và những cú bắt tay tỉ đô của Cerebras
Nền tảng hạ tầng của AWS từ lâu đã phụ thuộc rất nhiều vào các dòng vi mạch do bộ phận bán dẫn nội bộ Annapurna Labs tự thiết kế. Nổi bật nhất trong số đó là dòng chip Trainium, mang sức mạnh điện toán tương đương với các sản phẩm GPU cao cấp đến từ Nvidia hay Advanced Micro Devices. Việc AWS quyết định mở cửa trung tâm dữ liệu để đón nhận phần cứng của bên thứ ba như Cerebras cho thấy một chiến lược hội tụ công nghệ cực kỳ linh hoạt.
Theo kế hoạch, nhà cung cấp dịch vụ đám mây này sẽ kết hợp hệ thống của Cerebras cùng dòng chip Trainium nội bộ để tạo ra một giải pháp điện toán suy luận vượt trội. Sự kết hợp này mang lại một luồng sinh khí mới cho Cerebras, một doanh nghiệp được hậu thuẫn bởi hàng loạt định chế tài chính đình đám như Fidelity Management, Benchmark, Tiger Global hay Coatue.
Quá trình phát triển của doanh nghiệp này từng trải qua nhiều nốt trầm khi gặp khó khăn trong việc huy động vốn, thậm chí đã phải rút lại hồ sơ chào bán cổ phiếu lần đầu ra công chúng (IPO) nộp vào tháng 9.2024. Tuy nhiên, luồng gió đầu tư đã đổi chiều một cách ngoạn mục. Vào tháng 2 năm nay, Cerebras công bố hoàn tất vòng gọi vốn mới trị giá 1 tỉ USD, nâng tổng số tiền huy động được lên mức 2,6 tỉ USD và đẩy định giá công ty sau gọi vốn chạm ngưỡng 23 tỉ USD.
Sự trỗi dậy của Cerebras được tiếp thêm một nguồn lực khổng lồ từ những khách hàng lớn nhất hành tinh. Đầu năm nay, truyền thông tài chính đưa tin cha đẻ của ChatGPT là OpenAI đã ký kết một siêu hợp đồng trị giá hơn 10 tỉ USD để ứng dụng vi mạch Cerebras nhằm tiếp sức cho nền tảng chatbot phổ biến của họ. OpenAI hiện đang tìm cách triển khai một mạng lưới điện toán khổng lồ tiêu thụ tới 750 megawatt điện năng sử dụng công nghệ của Cerebras. Những bản hợp đồng liên tiếp này tái khẳng định vị thế của công ty trong việc giải quyết bài toán suy luận.
Khi số lượng người dùng tăng vọt và mức độ phức tạp của các câu hỏi ngày càng lớn, việc rút ngắn độ trễ từ lúc người dùng đặt lệnh đến khi hệ thống nhả ra câu trả lời trở thành yếu tố sống còn. Giám đốc điều hành Cerebras, ông Andrew Feldman, nhấn mạnh rằng sự hợp tác với AWS sẽ đưa giải pháp kết hợp Cerebras-Trainium xâm nhập vào nền tảng đám mây lớn nhất thế giới, mở ra cánh cửa tiếp cận một tệp khách hàng khổng lồ đang cực kỳ khát khao sức mạnh tốc độ.
Thách thức sự thống trị của Nvidia và cuộc đua tốc độ suy luận
Công nghệ của Cerebras được quảng bá là một giải pháp suy luận siêu tốc. Ở khía cạnh kỹ thuật chuyên sâu, công ty khẳng định các bộ vi xử lý Wafer-Scale Engine của họ có khả năng giải quyết các tác vụ phức tạp trong giai đoạn "giải mã" (decode) với tốc độ nhanh gấp 25 lần so với các dòng GPU hàng đầu của Nvidia. Đây là pha tính toán quyết định trong chu trình suy luận, nơi mô hình ngôn ngữ lớn liên tục nhả ra từng từ ngữ để ghép thành một câu trả lời hoàn chỉnh.
Việc tạo ra bước nhảy vọt về tốc độ giải mã đánh thẳng vào điểm yếu của các kiến trúc GPU truyền thống, biến hợp đồng giữa AWS và Cerebras thành một lời thách thức trực diện gửi đến Nvidia. Gã khổng lồ bán dẫn xanh lá cây đang phải đối mặt với áp lực cạnh tranh gay gắt từ các nhà thiết kế bộ vi xử lý tùy chỉnh. Khách hàng ngày càng đòi hỏi những sản phẩm phần cứng có khả năng chạy các thuật toán phức tạp với tốc độ cao hơn cùng mức chi phí vận hành thấp hơn.
Để đáp trả sự vươn lên của các thế lực mới, Nvidia đã buộc phải thay đổi chiến thuật. Vào tháng 12 năm ngoái, hãng đã ký một thỏa thuận cấp phép trị giá 20 tỉ USD với công ty khởi nghiệp chip Groq, chuẩn bị trình làng một hệ thống xử lý mới được thiết kế riêng cho tác vụ suy luận dựa trên công nghệ của đối tác này.
Cuộc đua trên thị trường điện toán đám mây giờ đây được phân hóa rõ rệt dựa trên nhu cầu về tốc độ và khả năng chi trả của khách hàng. Đại diện của AWS và Cerebras xác nhận rằng mối quan hệ đối tác này sẽ cung cấp một trong những dịch vụ điện toán suy luận nhanh nhất hiện có trên thị trường và sẽ được định giá như một dịch vụ cao cấp.
Ông Nafea Bshara, đồng sáng lập Annapurna Labs kiêm phó chủ tịch và kỹ sư xuất sắc tại AWS, chia sẻ mục tiêu cốt lõi của họ là liên tục đẩy mạnh tốc độ xử lý đồng thời tìm cách hạ thấp rào cản về giá để tiếp cận nhiều tệp khách hàng hơn. Dù tung ra gói dịch vụ siêu tốc, nhà cung cấp đám mây này vẫn duy trì các gói dịch vụ điện toán có tốc độ chậm hơn với mức giá dễ tiếp cận hơn, sử dụng độc lập các bộ vi xử lý Trainium nội bộ của mình.
Sự phân tầng dịch vụ này tạo ra nhiều lựa chọn linh hoạt cho các nhà phát triển phần mềm trên toàn cầu. Đối với một ứng dụng chỉ cần khả năng suy luận ở mức độ cơ bản với độ trễ cho phép, các giải pháp giá rẻ sẽ luôn sẵn sàng đáp ứng. Thế nhưng, với những tác vụ đòi hỏi sự phản hồi tức thì như lập trình tự động, phân tích tài chính theo thời gian thực hay các công việc mang tính chất đặc vụ (agentic work), tốc độ sản sinh token trở thành thước đo của sự thành bại.
Lãnh đạo của Cerebras tỏ ra cực kỳ tự tin với tuyên bố sẽ quyết tâm giành chiến thắng trong cuộc đua này bằng cách thiết lập một tiêu chuẩn hoàn toàn mới cho toàn ngành. Cuộc đối đầu nảy lửa giữa các kiến trúc phần cứng chuyên biệt hứa hẹn sẽ mang lại những bước bứt phá ngoạn mục về hiệu suất cho toàn bộ hệ sinh thái trí tuệ nhân tạo trong tương lai gần.
Bùi Tú