Các hãng công nghệ lớn Mỹ đã chạy đua để áp dụng mô hình lý luận trí tuệ nhân tạo (AI) mới nhất từ DeepSeek bất chấp sự giám sát ngày càng tăng trên toàn cầu với công ty khởi nghiệp có trụ sở tại thành phố Hàng Châu (Trung Quốc). DeepSeek tuyên bố có thể phát triển các mô hình AI nguồn mở hàng đầu trong ngành với chi phí chỉ bằng một phần nhỏ so với các công ty Mỹ như OpenAI và Meta Platforms.
Nvidia (hãng chip AI hàng đầu thế giới) đã cung cấp DeepSeek R1 cho người dùng dịch vụ vi mô NIM của mình kể từ ngày 30.1. Nvidia cho biết R1 cung cấp "khả năng lý luận tiên tiến", "hiệu quả suy luận cao" cũng như "độ chính xác hàng đầu" cho các tác vụ đòi hỏi suy luận logic, lý luận, toán học, mã hóa và hiểu ngôn ngữ.
Dịch vụ vi mô NIM (Nvidia Inference Microservice) cung cấp khả năng triển khai và suy luận AI hiệu quả trên phần cứng Nvidia.
NIM giúp các nhà phát triển dễ dàng sử dụng các mô hình AI tiên tiến mà không cần phải xử lý các vấn đề phức tạp liên quan đến triển khai và tối ưu hóa hiệu suất. Nó hỗ trợ nhiều mô hình AI, gồm cả DeepSeek R1, giúp tăng tốc quá trình suy luận và cải thiện độ chính xác của các tác vụ AI như toán học, lập trình, xử lý ngôn ngữ tự nhiên.
Động thái trên diễn ra sau khi sự trỗi dậy nhanh chóng của DeepSeek làm dấy lên lo ngại rằng các hãng công nghệ Mỹ đang chi tiêu quá mức cho bộ xử lý đồ họa (GPU) tiên tiến từ Nvidia, khiến cổ phiếu công ty này sụt giảm mạnh.
R1, mô hình lý luận nguồn mở trình làng ngày 20.1, có khả năng tương đương các mô hình GPT nguồn đóng của OpenAI ở một số lĩnh vực nhất định, nhưng được đào tạo với chi phí thấp hơn đáng kể.
Đầu tuần này, Microsoft (nhà đầu tư lớn của OpenAI) đã tích hợp R1 vào nền tảng điện toán đám mây Azure và nền tảng lưu trữ mã nguồn GitHub, cho phép khách hàng xây dựng các ứng dụng AI chạy cục bộ trên PC Copilot+.
Gã khổng lồ thương mại điện tử Amazon cho phép các nhà phát triển tạo ứng dụng bằng R1 "mạnh mẽ, tiết kiệm chi phí" thông qua Amazon Web Services.
Các hãng công nghệ Mỹ nhỏ hơn cũng đã áp dụng mô hình của DeepSeek. Trong đó, Perplexity (công ty khởi nghiệp tìm kiếm AI) cung cấp các kết quả không bị kiểm duyệt từ R1 về nhiều chủ đề nhạy cảm và bị chặn ở Trung Quốc.
Các hãng công nghệ lớn nhỏ của Mỹ đã nhanh chóng áp dụng R1 của DeepSeek bất chấp sự giám sát ngày càng tăng trên toàn cầu với công ty khởi nghiệp có trụ sở tại thành phố Hàng Châu - Ảnh: Internet
Nhiều hãng công nghệ Mỹ đang nhanh chóng tận dụng sự phấn khích xung quanh DeepSeek dù các phương pháp đào tạo mô hình AI và biện pháp bảo vệ quyền riêng tư của công ty Trung Quốc này đang bị giám sát chặt chẽ.
OpenAI có bằng chứng cho thấy DeepSeek đã phát triển mô hình R1 và V3 của mình bằng cách sử dụng distillation (chưng cất), kỹ thuật đào tạo mô hình nhỏ hơn để bắt chước hành vi của các mô hình lớn hơn và phức tạp hơn, một nguồn tin tiết lộ với tờ The Financial Times.
Dù hoạt động này rất phổ biến trong ngành, Microsoft và OpenAI đang điều tra xem liệu một nhóm liên quan đến DeepSeek có “chưng cất” dữ liệu từ các mô hình GPT nguồn đóng mà không được phép hay không, trang Bloomberg đưa tin.
Distillation trong AI là kỹ thuật học máy trong đó một mô hình nhỏ hơn, đơn giản hơn (gọi là student model – mô hình học sinh) được huấn luyện để bắt chước hiệu suất của mô hình lớn hơn, phức tạp hơn (gọi là teacher model – mô hình giáo viên).
Cách hoạt động của distillation
Mô hình giáo viên: Một mô hình AI lớn, mạnh mẽ được huấn luyện trước trên một lượng dữ liệu lớn.
Mô hình học sinh: Một mô hình nhỏ hơn được huấn luyện bằng cách học lại từ đầu ra của mô hình giáo viên thay vì chỉ dựa vào dữ liệu gốc.
Chuyển giao kiến thức: Mô hình học sinh học cách đưa ra các dự đoán tương tự như mô hình giáo viên nhưng với ít tài nguyên tính toán hơn.
Lợi ích của distillation
- Tăng hiệu suất: Giúp tạo ra các mô hình nhỏ gọn hơn nhưng vẫn duy trì độ chính xác cao.
- Tiết kiệm tài nguyên: Giúp AI chạy nhanh hơn trên các thiết bị có tài nguyên hạn chế như điện thoại, IoT (internet vạn vật).
- Bảo mật & tối ưu hóa: Có thể dùng để tạo ra các bản sao tối ưu hóa của mô hình AI mà không cần truy cập trực tiếp vào mô hình gốc.
Mối lo ngại về bảo mật
Distillation có thể được sử dụng để sao chép hoặc tái tạo mô hình AI mạnh mẽ từ các công ty đối thủ, dẫn đến lo ngại về đánh cắp tài sản trí tuệ. Đây là lý do tại sao Mỹ đang lo ngại rằng các công ty Trung Quốc có thể đang sử dụng kỹ thuật này để học từ mô hình AI tiên tiến của OpenAI.
Việc chưng cất trí tuệ từ mô hình AI của người khác mà không có sự cho phép bị coi là không đúng đắn trong một số cộng đồng nghiên cứu, nhưng thực tế lại xảy ra rất nhiều, theo Nick Vincent, phó giáo sư khoa học máy tính tại Đại học Simon Fraser (Canada). Ông là chuyên nghiên cứu cách dữ liệu được sử dụng trong AI.
Trong bài nghiên cứu về R1, DeepSeek đề cập đến việc sử dụng chưng cất với các mô hình mã nguồn mở, nhưng không nhắc đến OpenAI.
"Chúng tôi chứng minh rằng các mô hình lý luận lớn hơn có thể được chắt lọc thành các mô hình nhỏ hơn, mang lại hiệu suất tốt hơn", các nhà nghiên cứu của DeepSeek viết.
Từ cuối năm ngoái, khi DeepSeek bắt đầu gây ấn tượng với giới AI, một số nhà nghiên cứu AI suy đoán rằng DeepSeek đã sử dụng kết quả từ o1, mô hình lý luận mới của OpenAI, làm dữ liệu tổng hợp để cải thiện các mô hình riêng, chẳng hạn R1.
Tháng 12.2024, khi DeepSeek bắt đầu khiến giới AI trầm trồ, Sam Altman dường như đã mỉa mai đối thủ mới của mình.
"Việc sao chép một thứ gì đó mà bạn biết là có hiệu quả thì tương đối dễ. Song tạo ra một điều gì đó mới, rủi ro và khó khăn khi bạn không biết liệu nó có hiệu quả hay không thì lại vô cùng khó", ông viết trên mạng xã hội X.
Song gần đây, nhà đồng sáng lập OpenAI đánh giá R1 tạo ấn tượng, đặc biệt nhờ hiệu năng có được so với mức giá. "Chúng tôi sẽ cung cấp những mô hình với giá tốt hơn nhiều. Thật phấn khích khi có một đối thủ cạnh tranh mới", Sam Altman viết trên X khi DeepSeek bắt đầu gây sốt trên toàn cầu.
Mỹ điều tra việc sử dụng chip AI của DeepSeek
Hôm 31.1, Reuters đưa tin Bộ Thương mại Mỹ đang điều tra xem liệu DeepSeek có đang sử dụng chip AI của Mỹ bị cấm xuất khẩu sang Trung Quốc hay không.
Tổng thống Mỹ Donald Trump và Giám đốc điều hành Nvidia - Jensen Huang đã thảo luận về DeepSeek và việc thắt chặt xuất khẩu chip AI trong cuộc gặp tại Nhà Trắng hôm 31.1.
Chính quyền Trump đang xem xét thắt chặt các hạn chế với việc Nvidia bán dòng chip H20 được thiết kế riêng cho thị trường Trung Quốc, theo ba nguồn tin quen thuộc với vấn đề này nói với Reuters.
Các cuộc thảo luận trong nội bộ chính quyền Trump về việc hạn chế xuất khẩu Nvidia H20 sang Trung Quốc vẫn đang ở giai đoạn đầu, theo các nguồn tin, nhưng ý tưởng này đã được xem xét từ thời chính quyền Joe Biden. H20 có thể được sử dụng để vận hành phần mềm AI và được Nvidia thiết kế để tuân thủ các hạn chế xuất khẩu của Mỹ sang Trung Quốc dưới thời chính quyền Biden.
Hai nghị sĩ Mỹ cũng kêu gọi siết chặt hơn nữa việc xuất khẩu chip AI của Nvidia.
Nghị sĩ Cộng hòa John Moolenaar và nghị sĩ Dân chủ Raja Krishnamoorthi, lãnh đạo Ủy ban đặc biệt về Trung Quốc tại Hạ viện, đã yêu cầu thực hiện động thái này như một phần của cuộc rà soát do Bộ Thương mại và Bộ Ngoại giao Mỹ thực hiện theo lệnh từ ông Trump nhằm kiểm tra hệ thống kiểm soát xuất khẩu của Mỹ trong bối cảnh "những diễn biến liên quan đến các đối thủ chiến lược".
“Chúng tôi kêu gọi hãy nghĩ về lợi ích quốc gia khi áp đặt hạn chế xuất khẩu Nvidia H20 và các loại chip có độ tinh vi tương tự”, trích nội dung thư mà hai nghị sĩ Mỹ gửi cho cố vấn an ninh quốc gia Michael Waltz.
Trong thư, John Moolenaar và Raja Krishnamoorthi cho rằng các mô hình AI của DeepSeek được phát triển bằng Nvidia H20, hiện nằm ngoài phạm vi mặt hàng bị Mỹ kiểm soát xuất khẩu.
Trong một bài báo đăng tháng 12.2024, các nhà nghiên cứu DeepSeek viết rằng mô hình V3 được đào tạo trong vòng hai tháng bằng khoảng 2.000 chip Nvidia H800 kém mạnh mẽ hơn, với chi phí chỉ 6 triệu USD. Andrej Karpathy, thành viên sáng lập của OpenAI, đã gọi đây là "ngân sách nực cười".
V3 được DeepSeek đào tạo với lượng tài nguyên ít hơn nhưng vẫn ngang bằng hoặc thậm chí vượt trội về hiệu suất ở một số lĩnh vực so với các mô hình AI từ các công ty Mỹ như Meta Platforms và OpenAI.
Nvidia H800 không phải là loại chip hàng đầu. Ban đầu H800 được Nvidia phát triển như một sản phẩm giảm hiệu năng để vượt qua các hạn chế từ chính quyền Biden với mục đích bán cho thị trường Trung Quốc, song sau đó bị cấm theo lệnh trừng phạt của Mỹ.
Chi phí đào tạo các mô hình DeepSeek tương đối thấp khiến ngành công nghiệp phải đánh giá lại mức độ cần thiết của bộ xử lý đồ họa (GPU) để đào tạo các mô hình AI ngày càng tinh vi hơn.
Wei Sun, nhà phân tích chính về AI tại hãng nghiên cứu thị trường Counterpoint Research, cho biết thành công của DeepSeek thách thức niềm tin rằng các mô hình lớn hơn với nhiều sức mạnh tính toán hơn sẽ mang lại hiệu suất tốt hơn, đe dọa chiến lược tăng trưởng dựa trên GPU của Nvidia.
Bà Wei Sun cho biết: "Nó cũng đặt câu hỏi về sự cần thiết của những khoản đầu tư khổng lồ như dự án Stargate trị giá 500 tỉ USD của Mỹ. Bằng cách đạt được kết quả tiên tiến với ít nguồn lực hơn, DeepSeek làm nổi bật tiềm năng đổi mới hiệu quả thay vì chỉ tập trung vào quy mô, đánh dấu một bước ngoặt trong cuộc đua AI".
Khi mối lo ngại về quyền riêng tư gia tăng, một dự luật được trình lên Quốc hội Mỹ tuần này nhằm mục đích cấm nhập khẩu công nghệ AI và tài sản trí tuệ được phát triển hoặc sản xuất tại Trung Quốc, cũng như xuất khẩu công nghệ AI của Mỹ sang Trung Quốc. Các cơ quan liên bang Mỹ, gồm cả Hải quân Mỹ, NASA (Cơ quan Hàng không và Vũ trụ Mỹ) cùng các văn phòng Quốc hội, đã định hướng nhân viên tránh sử dụng các sản phẩm của DeepSeek.
Quan chức chính phủ ở các nước phương Tây như Vương quốc Anh và Úc lên tiếng nghi ngờ về khả năng bảo vệ quyền riêng tư của DeepSeek. Trợ lý AI miễn phí của DeepSeek đã bị xóa khỏi các cửa hàng ứng dụng ở Ý.
Sơn Vân