Các công ty AI hàng đầu như OpenAI, Microsoft và Meta Platforms đang chuyển sang dùng quy trình chưng cất nhằm tạo ra mô hình rẻ hơn để người tiêu dùng và doanh nghiệp có thể dễ dàng tiếp cận.
Kỹ thuật này đã thu hút sự chú ý rộng rãi sau khi công ty khởi nghiệp DeepSeek (Trung Quốc) sử dụng nó để xây dựng các mô hình AI mạnh mẽ và hiệu quả, dựa trên hệ thống mã nguồn mở do Meta Platforms và Alibaba phát hành. Đột phá này đã làm lung lay niềm tin vào vị thế dẫn đầu của Thung lũng Silicon trong lĩnh vực AI, khiến các nhà đầu tư Phố Wall bán tháo hàng tỉ USD cổ phiếu các tập đoàn công nghệ lớn Mỹ.
Chưng cất trong AI là kỹ thuật học máy trong đó một mô hình nhỏ hơn, đơn giản hơn (gọi là mô hình học sinh) được huấn luyện để bắt chước hiệu suất của mô hình lớn hơn, phức tạp hơn (gọi là mô hình giáo viên).
Cách hoạt động của chưng cất
Mô hình giáo viên: Một mô hình AI lớn, mạnh mẽ được huấn luyện trước trên một lượng dữ liệu lớn.
Mô hình học sinh: Một mô hình nhỏ hơn được huấn luyện bằng cách học lại từ đầu ra của mô hình giáo viên thay vì chỉ dựa vào dữ liệu gốc.
Chuyển giao kiến thức: Mô hình học sinh học cách đưa ra các dự đoán tương tự như mô hình giáo viên nhưng với ít tài nguyên tính toán hơn.
Lợi ích của chưng cất
- Tăng hiệu suất: Giúp tạo ra các mô hình nhỏ gọn hơn nhưng vẫn duy trì độ chính xác cao.
- Tiết kiệm tài nguyên: Giúp AI chạy nhanh hơn trên các thiết bị có tài nguyên hạn chế như điện thoại, IoT (internet vạn vật).
- Bảo mật & tối ưu hóa: Có thể dùng để tạo ra các bản sao tối ưu hóa của mô hình AI mà không cần truy cập trực tiếp vào mô hình gốc.
Dù chưng cất đã được sử dụng rộng rãi trong nhiều năm, những tiến bộ gần đây đã khiến các chuyên gia trong ngành tin rằng quy trình này sẽ ngày càng trở thành lợi thế lớn cho các công ty khởi nghiệp đang tìm kiếm cách thức xây dựng ứng dụng AI với chi phí thấp hơn.
“Chưng cất khá kỳ diệu. Đó là quá trình tận dụng một mô hình tiên tiến lớn và sử dụng nó để dạy một mô hình nhỏ hơn cực kỳ hiệu quả trong các nhiệm vụ cụ thể, với chi phí rẻ và tốc độ xử lý cực nhanh”, Olivier Godement, trưởng bộ phận sản phẩm của nền tảng OpenAI, nhận xét.
Các mô hình ngôn ngữ lớn như GPT-4 của OpenAI, Google Gemini, Llama của Meta Platforms đòi hỏi lượng dữ liệu khổng lồ và sức mạnh tính toán đáng kể để phát triển và duy trì. Dù các công ty không tiết lộ chính xác chi phí đào tạo những mô hình này, con số ước tính có thể lên đến hàng trăm triệu USD. Nhờ chưng cất, các nhà phát triển và doanh nghiệp có thể đạt được khả năng của những mô hình này với chi phí chỉ bằng một phần nhỏ, cho phép các ứng dụng AI chạy nhanh chóng trên các thiết bị như máy tính xách tay và smartphone.
Các nhà phát triển có thể sử dụng nền tảng của OpenAI để thực hiện chưng cất, học hỏi từ những mô hình ngôn ngữ lớn vốn là nền tảng cho ChatGPT. Microsoft, nhà đầu tư lớn nhất vào OpenAI (gần 14 tỉ USD), đã sử dụng GPT-4 để chưng cất và phát triển dòng mô hình ngôn ngữ nhỏ Phi như một phần quan hệ hợp tác thương mại.
OpenAI tin rằng DeepSeek đã dựa vào mô hình AI của họ để đào tạo mô hình nguồn mở V3 và R1 —hành động vi phạm điều khoản dịch vụ của công ty Mỹ. DeepSeek chưa đưa ra bất kỳ bình luận nào về cáo buộc này.
OpenAI, Microsoft và Meta Platforms đang dùng quy trình chưng cất giống DeepSeek nhằm tạo ra mô hình AI rẻ hơn để người tiêu dùng và doanh nghiệp có thể dễ dàng tiếp cận - Ảnh: Internet
Dù chưng cất có thể tạo ra mô hình AI hiệu suất cao, các chuyên gia cho rằng chúng có những hạn chế nhất định.
“Chưng cất đặt ra sự đánh đổi thú vị. Nếu làm cho mô hình AI nhỏ hơn, bạn không thể tránh khỏi việc giảm bớt khả năng của nó”, chuyên gia Ahmed Awadallah thuộc Microsoft Research cho biết. Ông giải thích rằng một mô hình chưng cất có thể được thiết kế để tóm tắt email rất tốt chẳng hạn, nhưng lại không thể làm tốt các nhiệm vụ khác.
David Cox, Phó chủ tịch phụ trách mô hình AI tại IBM Research, nhận định rằng hầu hết doanh nghiệp không cần một mô hình khổng lồ để vận hành sản phẩm của họ. Các mô hình chưng cất đủ mạnh để sử dụng trong các chatbot hỗ trợ khách hàng hoặc chạy trên thiết bị nhỏ như smartphone.
“Mỗi khi bạn có thể giảm chi phí mà vẫn đạt hiệu suất mong muốn, hầu như không có lý do gì để không làm điều đó”, ông nói thêm.
Điều này đặt ra một thách thức với hoạt động kinh doanh của các công ty AI hàng đầu. Khi các nhà phát triển sử dụng các mô hình chưng cất của OpenAI, chi phí vận hành thấp hơn, chi phí tạo ra rẻ hơn và do đó doanh thu cũng ít hơn. Các công ty như OpenAI thường tính phí thấp hơn với các mô hình chưng cất vì chúng tiêu tốn ít tài nguyên tính toán hơn.
Tuy nhiên, Olivier Godement lập luận rằng các mô hình ngôn ngữ lớn vẫn sẽ cần thiết cho “những nhiệm vụ đòi hỏi trí tuệ cao và có rủi ro lớn”, trong đó “các doanh nghiệp sẵn sàng trả nhiều tiền hơn để có độ chính xác và tin cậy cao”. Ông cũng cho rằng các mô hình ngôn ngữ lớn sẽ tiếp tục được sử dụng để khám phá những khả năng mới, sau đó có thể được chưng cất thành mô hình nhỏ hơn.
Dù vậy, OpenAI đặt mục tiêu ngăn chặn việc các mô hình ngôn ngữ lớn của họ bị chưng cất để đào tạo ra đối thủ cạnh tranh. Công ty Mỹ có các đội ngũ giám sát việc sử dụng và có thể thu hồi quyền truy cập của những người dùng mà họ nghi ngờ đang tạo ra lượng lớn dữ liệu để xuất và đào tạo ra đối thủ cạnh tranh. OpenAI đã thực hiện điều này với một số tài khoản mà họ cho là có liên kết với DeepSeek. Tuy nhiên, hầu hết hành động này chỉ được thực hiện sau khi hành vi vi phạm đã xảy ra.
“OpenAI đã cố gắng bảo vệ chống lại chưng cất trong một thời gian dài, nhưng rất khó để ngăn chặn hoàn toàn”, theo Douwe Kiela, Giám đốc điều hành Contextual AI - công ty khởi nghiệp chuyên phát triển công cụ truy xuất thông tin cho doanh nghiệp.
Việc chưng cất là chiến thắng cho những người ủng hộ mô hình AI nguồn mở, khi công nghệ được cung cấp miễn phí để các nhà phát triển xây dựng và phát triển tiếp. DeepSeek cũng đã công khai nguồn mở các mô hình AI của họ cho nhà phát triển.
“Chúng tôi sẽ sử dụng việc chưng cất và đưa nó vào sản phẩm của mình ngay lập tức. Đó chính là ý tưởng của mã nguồn mở. Bạn có thể hưởng lợi từ tiến bộ của tất cả mọi người, miễn là các quy trình đó được mở”, Yann LeCun, Giám đốc Khoa học AI của Meta Platforms, nói.
Song cũng vì chưng cất mà các nhà phát triển mô hình AI đầu tư hàng tỉ USD để nâng cao khả năng của hệ thống phải đối mặt với các đối thủ có thể bắt kịp rất nhanh, như những gì DeepSeek thể hiện gần đây. Điều này đặt ra câu hỏi về lợi thế của người đi đầu trong việc xây dựng các mô hình ngôn ngữ lớn khi khả năng của chúng có thể bị sao chép chỉ trong vài tháng.
“Trong một thế giới nơi mọi thứ đang thay đổi quá nhanh, bạn có thể chi rất nhiều tiền, làm mọi thứ theo cách khó khăn nhất, nhưng sau đó toàn bộ ngành công nghiệp vẫn theo sát bạn. Vậy nên đây là một bối cảnh kinh doanh thú vị nhưng cũng đầy thách thức”, David Cox nhận xét.
Sơn Vân