DeepSeek tăng cường an ninh sau Tết, nhà nghiên cứu xóa bài tiết lộ bí mật cải tiến mô hình suy luận R1

DeepSeek tăng cường an ninh sau Tết, nhà nghiên cứu xóa bài tiết lộ bí mật cải tiến mô hình suy luận R1
4 giờ trướcBài gốc
Ngày làm việc đầu tiên sau kỳ nghỉ Tết Nguyên đán tại DeepSeek gây chú ý khi công ty khởi nghiệp Trung Quốc này nhận nhiều lời khen ngợi trên thế giới vì thành tích xây dựng các mô hình trí tuệ nhân tạo (AI) nguồn mở mạnh mẽ và tiết kiệm chi phí bất chấp các hạn chế công nghệ từ Mỹ.
Tuy nhiên hôm 5.2, người bên trong trụ sở chính DeepSeek tại thành phố Hàng Châu (thủ phủ tỉnh Chiết Giang, miền đông Trung Quốc) vẫn giữ im lặng về các động thái tiếp theo tiềm năng của công ty, từ chối tất cả yêu cầu từ giới truyền thông, gồm cả báo SCMP. Theo một người bảo vệ tại tòa nhà, số lượng nhân viên an ninh được triển khai bên ngoài văn phòng DeepSeek đã tăng lên trong cùng ngày.
Ban quản lý tòa nhà đã hướng tất cả khách không có hẹn trước vào một phòng riêng để từ chối yêu cầu thăm quan trụ sở chính DeepSeek. Cửa vào văn phòng của DeepSeek trên tầng 12 tòa nhà bị khóa, dù nhìn qua lớp cửa kính có thể thấy các đồ trang trí Tết rải rác trên sàn nhà.
DeepSeek cũng bất ngờ trước tác động của hai mô hình mã nguồn mở V3 và R1 trên thị trường AI toàn cầu, theo một nguồn tin quen thuộc với công ty.
Hôm 5.2, ông Hoàng Khôn Minh (Bí thư Tỉnh ủy Quảng Đông) đã ca ngợi DeepSeek vì dám thách thức các gã khổng lồ AI của Mỹ với "sự dũng cảm và quyết tâm". Ông Hoàng Khôn Minh, Ủy viên Bộ Chính trị, là quan chức cấp cao đầu tiên của chính phủ Trung Quốc công khai khen ngợi công ty này.
Trong một bài đăng trên mạng xã hội, Rao Yi (nhà khoa học về sự sống nổi tiếng ở Trung Quốc) cho rằng bước đột phá AI của DeepSeek là đóng góp công nghệ vĩ đại nhất của Trung Quốc kể từ Chiến tranh Nha phiến vào giữa thế kỷ 19, nhưng không nói rõ thêm.
Thái độ dè dặt của DeepSeek với giới truyền thông xác nhận bản tin trước đó từ SCMP rằng công ty vẫn chưa thành lập bộ phận phụ trách các yêu cầu từ công chúng và nhà đầu tư. Điều này cũng phản ánh sự cảnh giác từ nhân viên trong việc bảo vệ thông tin nhạy cảm của DeepSeek.
Mặt tiền tòa nhà văn phòng thương mại ở Hàng Châu, nơi có trụ sở của DeepSeek - Ảnh: SCMP
Một nhà nghiên cứu AI tại DeepSeek, tách ra từ quỹ đầu tư High-Flyer Quant vào năm 2023, đã hé lộ một phần về các bước tiếp theo của công ty.
Trong chuỗi bài đăng trên mạng xã hội X vào ngày 1.2, nhà nghiên cứu Daya Guo cho biết DeepSeek đang trên đà đạt được "tiến bộ đáng kể" để cải tiến các hệ thống AI của mình thông qua học tăng cường.
Học tăng cường là phương pháp học máy tập trung vào việc ra quyết định của các "tác tử tự động" (autonomous agents), gồm phần mềm AI tiên tiến, robot và ô tô tự hành. Những tác tử này học cách thực hiện nhiệm vụ thông qua phương pháp trial and error (thử và sai), mà không cần sự hướng dẫn trực tiếp từ con người. Học tăng cường có tiềm năng lớn trong phát triển AI vì giúp giải quyết các vấn đề ra quyết định theo trình tự trong môi trường không chắc chắn.
Trial and error là một phương pháp học tập hoặc giải quyết vấn đề bằng cách thử nhiều cách khác nhau, rút kinh nghiệm từ những sai lầm, rồi điều chỉnh cho đến khi đạt được kết quả mong muốn.
Daya Guo, một trong nhữngngười đóng góp chính cho mô hình suy luận R1, viết rằng "khoảnh khắc hạnh phúc nhất trong dịp Tết Nguyên đán là chứng kiến hiệu suất của R1 liên tục cải thiện và thực sự cảm nhận được sức mạnh của học tăng cường".
Chuỗi bài đăng của Daya Guo sau đó bị xóa khỏi trên X khi các hãng tin địa phương đưa tin về nội dung này. Daya Guo không trả lời ngay lập tức câu hỏi từ SCMP hôm 5.2.
Liang Wenfeng - nhà sáng lập kiêm Giám đốc điều hành DeepSeek
Tuần trước, Liang Wenfeng (nhà sáng lập kiêm Giám đốc điều hành DeepSeek) đã nhận được sự chào đón như người hùng khi trở về quê hương của ông tại thành phố cảng Trạm Giang (tỉnh Quảng Đông) trong dịp Tết Nguyên đán. Các nhà cung cấp dịch vụ đám mây lớn ở Trung Quốc vẫn làm việc trong kỳ nghỉ Tết để hỗ trợ các mô hình AI DeepSeek trên nền tảng của họ.
Hôm 3.2, Alibaba Cloud (đơn vị dịch vụ điện toán đám mây thuộc Alibaba) đã đưa các mô hình AI DeepSeek lên nền tảng của mình, cho phép người dùng "thực hiện toàn bộ quy trình từ huấn luyện đến triển khai và suy luận mà không cần viết mã".
Động thái này diễn ra sau các bước tương tự từ các hãng công nghệ lớn khác như Huawei, Tencent, Microsoft, Amazon và Nvidia.
Các công ty bán dẫn Trung Quốc gồm Moore Threads Technology, Iluvatar Corex và MetaX cũng bày tỏ sự ủng hộ với DeepSeek khi gấp rút điều chỉnh chip của mình tương thích với các mô hình AI do công ty khởi nghiệp này phát triển.
DeepSeek chi số tiền khủng để mua hàng vạn GPU Nvidia như nhiều hãng
DeepSeek được tách ra vào năm 2023 từ High Flyer-Quant, công ty quản lý quỹ đầu tư. Doanh nhân đứng sau DeepSeek là ông Liang Wenfeng, người sáng lập High Flyer-Quant và DeepSeek, từng nghiên cứu về AI tại Đại học Chiết Giang (Trung Quốc).
Lượng sức mạnh tính toán mà DeepSeek sử dụng để huấn luyện mô hình nguồn mở V3 và R1 đã trở thành chủ đề thu hút sự quan tâm mạnh mẽ từ các chuyên gia AI và nhà đầu tư, vì câu trả lời có thể ảnh hưởng lớn đến sự phát triển của công nghệ này trong tương lai.
Trong một bài viết về V3, ra mắt vào tháng 12.2024, DeepSeek tuyên bố rằng quá trình huấn luyện mô hình này chỉ tiêu tốn 2,8 triệu giờ GPU với chi phí 5,6 triệu USD, chỉ bằng một phần nhỏ thời gian và tiền bạc mà các công ty Mỹ bỏ ra cho các mô hình AI của họ.
Cụ thể hơn, DeepSeek cho biết đào tạo V3 bằng khoảng 2.000 chip Nvidia H800. Đây không phải là loại chip hàng đầu của Nvidia. Ban đầu H800 được Nvidia phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.
Một số chuyên gia đã đặt nghi vấn về tuyên bố của DeepSeek.
Chuyên gia Stacy Rasgon của hãng Bernstein và các nhà phân tích khác cho rằng chi phí đào tạo V3 của DeepSeek có thể cao hơn, vì con số 6 triệu USD được công ty này công bố chỉ là chi phí cho sức mạnh tính toán.
Dù vậy, con số này vẫn khác xa so với 250 tỉ USD mà các nhà phân tích ước tính các công ty điện toán đám mây lớn Mỹ sẽ chi tiêu trong năm 2025 cho cơ sở hạ tầng AI.
R1, mô hình lập luận mã nguồn mở của DeepSeek trình làng ngày 20.1, thể hiện năng lực tương đương với các mô hình tiên tiến hơn từ OpenAI, Anthropic và Google, nhưng chi phí đào tạo thấp hơn đáng kể. Tuy nhiên, bài viết của DeepSeek về R1 không đề cập đến chi phí phát triển.
Các mô hình DeepSeek có chi phí thấp và hiệu suất mạnh mẽ làm dấy lên nghi ngờ về sự cần thiết của khoản đầu tư khổng lồ từ các gã khổng lồ công nghệ Mỹ, đặc biệt là vào chip AI đắt đỏ. Điều này đã dẫn đến đợt bán tháo lớn cổ phiếu Nvidia vào tuần trước, khiến vốn hóa hãng chip AI hàng đầu của Mỹ giảm gần 600 tỉ USD chỉ trong một ngày.
Các hồ sơ cho thấy DeepSeek là một trong những đơn vị có nguồn lực mạnh nhất để đào tạo AI. Ngay từ năm 2019, Liang Wenfeng đã chi 200 triệu nhân dân tệ (27,8 triệu USD) để mua 1.100 GPU nhằm đào tạo các thuật toán giao dịch chứng khoán. High-Flyer cho biết trung tâm điện toán của DeepSeek vào thời điểm đó có diện tích tương đương một sân bóng rổ, khoảng 436,6 mét vuông.
Năm 2021, High-Flyer đã chi 1 tỉ nhân dân tệ để phát triển cụm siêu máy tính Fire-Flyer 2, được kỳ vọng đạt công suất 1.550 petaflop, theo trang web của quỹ. Hiệu suất này tương đương với một số siêu máy tính mạnh nhất thế giới.
Petaflop là một đơn vị đo lường hiệu suất tính toán của siêu máy tính, viết tắt của Peta Floating Point Operations Per Second (nghìn nghìn tỉ phép toán dấu phẩy động mỗi giây).
Trong cuộc phỏng vấn với trang tin công nghệ 36Kr (Trung Quốc) vào tháng 5.2023, Liang Wenfeng cho biết High-Flyer đã mua gần 10.000 GPU Nvidia, gồm cả dòng A100 tiên tiến nhất vào thời điểm đó, trước khi Mỹ áp đặt hạn chế xuất khẩu loại chip này sang Trung Quốc.
Một số nhà phân tích xác định rằng việc High-Flyer chi tiêu mạnh vào phần cứng là yếu tố quan trọng giúp DeepSeek trở thành "ngựa ô" trong cuộc đua AI toàn cầu.
Trong một báo cáo, hãng nghiên cứu SemiAnalysis (Mỹ) ước tính rằng tổng chi tiêu phần cứng của DeepSeek “vượt xa mức 500 triệu USD trong suốt lịch sử công ty”, gồm cả chi phí nghiên cứu và phát triển cũng như tổng chi phí sở hữu phần cứng.
Theo SemiAnalysis, tổng chi tiêu vốn cho máy chủ của DeepSeek có thể đã lên đến 1,6 tỉ USD với khoảng 50.000 GPU Nvidia Hopper, gồm cả chi phí vận hành 944 triệu USD cho các cụm tính toán.
Dù vậy, các nhà phân tích lưu ý rằng sự đổi mới của DeepSeek trong lĩnh vực phần mềm đã chứng minh rằng hiệu suất mô hình không tỷ lệ thuận với số tiền mà công ty chi cho GPU đắt tiền.
“Dù có thể tranh luận về chi phí GPU thực của DeepSeek, nhưng yếu tố không thể phủ nhận là kết quả đầu ra của họ. Đây là một bước ngoặt, hỗ trợ các ứng dụng và tác tử AI được xây dựng dựa trên đó. Họ đã thu nhỏ kích thước mô hình AI và với một số sự đổi mới khác, đáng kể giảm chi phí huấn luyện và vận hành”, nhà phân tích Shawn Kim và Duan Liu của tập đoàn tài chính Morgan Stanley (Mỹ) viết trong một báo cáo.
Tác tử AI là hệ thống hoặc chương trình máy tính được thiết kế để thực hiện các tác vụ tự động bằng cách sử dụng AI. Các tác tử AI có khả năng tương tác với môi trường, thu thập thông tin, xử lý dữ liệu, ra quyết định và thực hiện các hành động dựa trên mục tiêu được đặt ra.
Tilly Zhang, nhà phân tích tại hãng Gavekal (Hồng Kông), viết trong một ghi chú nghiên cứu riêng rằng với các mô hình mới nhất của DeepSeek, “cuộc đua giành vị thế dẫn đầu trong AI không còn chỉ là về việc ai có quyền tiếp cận chip tốt nhất, mà là ai sử dụng chúng hiệu quả nhất”.
Sơn Vân
Nguồn Một Thế Giới : https://1thegioi.vn/deepseek-tang-cuong-an-ninh-sau-tet-nha-nghien-cuu-xoa-bai-tiet-lo-bi-mat-cai-tien-mo-hinh-suy-luan-r1-229000.html