Jensen Huang: Nhà đầu tư sai lầm khi bán tháo cổ phiếu Nvidia vì DeepSeek

Jensen Huang: Nhà đầu tư sai lầm khi bán tháo cổ phiếu Nvidia vì DeepSeek
17 giờ trướcBài gốc
Hồi tháng 1, startup DeepSeek của Trung Quốc ra mắt mô hình suy luận R1 nguồn mở. Công ty cho biết mô hình ngôn ngữ lớn đứng sau R1 được phát triển với những con chip yếu hơn và chi phí rẻ hơn nhiều so với mô hình AI phương Tây.
Các nhà đầu tư đã phản ứng với tin tức này bằng cách bán tháo cổ phiếu Nvidia và các hãng công nghệ khác, dẫn đến Nvidia mất 600 tỷ USD vốn hóa chỉ trong một ngày. Dù vậy, đến nay hãng bán dẫn lớn nhất thế giới đã lấy lại gần hết những gì bị mất.
Mô hình ngôn ngữ lớn của DeepSeek được phát triển bằng những con chip yếu hơn và chi phí rẻ hơn nhiều so với các mô hình phương Tây. Ảnh: Bloomberg
Trong video mới nhất, ông Jensen Huang cho rằng phản ứng cực đoan của thị trường xuất phát từ việc nhà đầu tư đã diễn giải sai những tiến bộ của DeepSeek.
Họ đặt câu hỏi như hàng nghìn tỷ USD mà Big Tech chi cho hạ tầng AI có cần thiết không nếu cần sức mạnh tính toán thấp hơn để đào tạo các mô hình.
Tuy nhiên, ông Huang cho rằng ngành công nghiệp vẫn cần đến sức mạnh tính toán cho các phương thức hậu huấn luyện (post-training), cho phép mô hình AI đưa ra kết luận hoặc dự đoán sau khi được đào tạo.
Các phương thức post-training ngày càng đa dạng và phát triển, vì vậy nhu cầu với sức mạnh tính toán mà những con chip Nvidia cung cấp cũng tăng theo.
Theo CEO Nvidia, nhà đầu tư nghĩ thế giới chỉ có pre-training (tiền huấn luyện) và suy luận (hỏi AI một câu hỏi rồi nhận câu trả lời ngay lập tức), song post-training mới là phần quan trọng nhất của AI. Đó là nơi nó học cách giải quyết các vấn đề chuyên ngành.
Dù vậy, ông Huang không phủ nhận DeepSeek đã “bơm” thêm năng lượng cho thế giới AI. CEO AMD Lisa Su cũng nhận xét DeepSeek đang thúc đẩy những đổi mới sáng tạo “tốt cho việc ứng dụng AI” trong cuộc phỏng vấn đầu tháng này.
Thuật ngữ pre-training chỉ giai đoạn đầu của huấn luyện một mô hình ngôn ngữ lớn (LLM), nơi mô hình học hỏi từ một bộ dữ liệu lớn, đa dạng, thường lên đến vài nghìn tỷ token.
Mục tiêu ở đây là giúp mô hình nắm được tổng quát ngôn ngữ, bối cảnh và các loại kiến thức chung. Giai đoạn này thường cần đến sức mạnh tính toán và dữ liệu khổng lồ, tốn kém hàng trăm triệu USD.
Thuật ngữ post-training hay fine-tuning là khi dùng một mô hình đã được huấn luyện trước đó rồi đào tạo tiếp bằng một bộ dữ liệu cụ thể hơn. Bộ dữ liệu này thường nhỏ hơn và tập trung vào một lĩnh vực hay nhiệm vụ nào đó.
Mục đích của nó là điều chỉnh mô hình để hoạt động tốt hơn trong các kịch bản, nhiệm vụ cụ thể, không được đề cập sâu trong quá trình pre-training. Kiến thức mới bổ sung trong post-training sẽ giúp cải thiện hiệu quả của mô hình hơn là mở rộng kiến thức tổng quát.
(Theo Insider, Reddit)
Du Lam
Nguồn VietnamNet : https://vietnamnet.vn/jensen-huang-nha-dau-tu-sai-lam-khi-ban-thao-co-phieu-nvidia-vi-deepseek-2373687.html