Theo hãng tin Bloomberg, Shengjia Zhao là thành viên nhóm phát triển phiên bản gốc chatbot trí tuệ nhân tạo (AI) nổi tiếng ChatGPT của OpenAI. Nhà nghiên cứu AI kỳ cựu người Trung Quốc này là đồng tác giả ChatGPT và một số mô hình AI của OpenAI như GPT-4, GPT 4.1, o1, o3.
Shengjia Zhao là đồng tác giả bài nghiên cứu ChatGPT ban đầu, đóng góp vai trò quan trọng để tạo nên o1 - mô hình suy luận đầu tiên của OpenAI, vốn đã góp phần phổ biến làn sóng các hệ thống AI tương tự, được gọi là "chuỗi suy nghĩ", tại DeepSeek và Google.
Shengjia Zhao sẽ cùng lãnh đạo nhóm AI cấp cao của Meta Platforms, với mục tiêu xây dựng những mô hình AI mới có thể thực hiện các nhiệm vụ ngang bằng hoặc vượt trội so với con người. Ông sẽ báo cáo trực tiếp cho Alexandr Wang (đồng sáng lập và cựu giám đốc điều hành công ty gán nhãn dữ liệu nổi tiếng Scale AI), hiện giữ vai trò Giám đốc AI của Meta Platforms.
Hồi tháng 6, Meta Platforms đã chi 14,3 tỉ USD để mua 49% cổ phần Scale AI và mời Alexandr Wang về đồng lãnh đạo Superintelligence Labs cùng Nat Friedman (cựu giám đốc điều hành GitHub). Trong bộ phận siêu trí tuệ này, có hơn 10 nhà nghiên cứu AI kỳ cựu đến từ OpenAI, Google và Apple.
“Trong vai trò này, Shengjia sẽ thiết lập chương trình nghiên cứu và định hướng khoa học cho phòng thí nghiệm mới của chúng tôi, làm việc trực tiếp với tôi và Alexandr Wang. Shengjia là người đồng sáng lập phòng thí nghiệm mới và là nhà khoa học trưởng của chúng tôi ngay từ ngày đầu đến đây”, Mark Zuckerberg (Giám đốc điều hành Meta Platforms) viết trên tài khoản Threads cá nhân.
Tuyên bố cũng cho biết Meta Platforms chính thức công bố vai trò của Shengjia Zhao vì “công tác tuyển dụng đang diễn ra tốt đẹp và đội ngũ dần hoàn thiện”.
Dù thông báo này nhận được nhiều lời chúc mừng từ cộng đồng yêu thích AI và tạo thêm cuộc thảo luận về làn sóng săn nhân tài AI liên tục của Meta Platforms, một số người lại đặt câu hỏi: Thế còn Yann LeCun thì sao?
Shengjia Zhao (trái) là nhà khoa học trưởng tại Superintelligence Labs, còn Yann LeCun (phải) giữ vai trò tương tự ở FAIR - Ảnh: Internet
"Vai trò của tôi không thay đổi"
Yann LeCun trở thành một nhân vật nổi bật trong ngành AI sau khi gia nhập Meta Platforms (lúc còn gọi là Facebook) vào năm 2013. Ông hiện là nhà khoa học trưởng về AI tại đơn vị Meta Fundamental AI Research (FAIR), trước đây gọi là Facebook AI Research. Trên tài khoản LinkedIn, Yann LeCun đã phản hồi các thắc mắc và làm rõ vai trò của mình tại Meta Platforms.
“Vai trò của tôi là nhà khoa học trưởng tại FAIR từ trước đến nay, luôn tập trung vào nghiên cứu AI dài hạn và xây dựng các mô hình AI thế hệ tiếp theo. Vai trò của tôi và sứ mệnh FAIR không thay đổi”, Yann LeCun viết hôm 26.7.
Mark Zuckerberg và Alexandr Wang cũng xác nhận trên mạng xã hội rằng vai trò tại Meta Platforms của Yann LeCun không thay đổi.
Theo các nguồn tin của Bloomberg, Yann LeCun (65 tuổi) sẽ báo cáo trực tiếp cho Alexandr Wang (28 tuổi).
Yann LeCun được mệnh danh là “cha đẻ của AI” vì những đóng góp mang tính nền tảng trong lĩnh vực học sâu, đặc biệt là trong việc phát triển mạng nơ-ron tích chập. Đây là một trong những công nghệ cốt lõi đứng sau nhiều tiến bộ AI hiện nay, từ nhận diện hình ảnh đến xử lý ngôn ngữ tự nhiên.
Học sâu là một nhánh của học máy, sử dụng mạng nơ-ron nhiều lớp để tự động học từ dữ liệu rất lớn và phức tạp. Học máy là một nhánh của AI, cho phép máy tính tự học từ dữ liệu và cải thiện hiệu suất theo thời gian mà không cần được lập trình rõ ràng từng bước.
FAIR và Superintelligence Labs khác nhau thế nào?
Dù cả FAIR và Superintelligence Labs đều nghiên cứu về AI nhưng có những điểm khác biệt.
Meta Platforms thành lập FAIR hơn một thập kỷ trước để nghiên cứu và thúc đẩy công nghệ AI, dẫn đến việc ra mắt mô hình ngôn ngữ lớn mã nguồn mở LLaMA vào năm 2023. Hiện tại, LeCun chủ yếu tập trung vào việc phát triển mô hình thế giới (dựa trên thế giới thực), với tiềm năng thay thế các mô hình ngôn ngữ lớn trong tương lai.
Trong khi đó, Superintelligence Labs là bộ phận lớn bao gồm cả FAIR, các nhóm nền tảng và sản phẩm của Meta Platforms, theo nội dung một bản ghi nhớ nội bộ mà Mark Zuckerberg gửi vào tháng 6. Tỷ phú 40 tuổi người Mỹ nói rằng Superintelligence Labs sẽ tập trung vào việc phát triển “siêu trí tuệ cá nhân cho mọi người”.
Yann LeCun: Rất mong chờ được hợp tác với Shengjia Zhao
Trong một bài đăng trên mạng xã hội X hôm 26.7, Alexandr Wang đã ca ngợi Shengjia Zhao.
“Shengjia là nhà khoa học xuất sắc, gần đây đã tiên phong phát triển một mô hình AI mở rộng quy mô hoàn toàn mới ở nghiên cứu của mình. Anh ấy sẽ dẫn dắt định hướng khoa học cho đội ngũ của chúng tôi”, Giám đốc AI của Meta Platforms cho hay.
Yann LeCun cho biết ông rất mong chờ được hợp tác với Shengjia Zhao “để đẩy nhanh việc tích hợp các nghiên cứu mới vào những mô hình tiên tiến nhất của chúng tôi”.
Mark Zuckerberg (trái) trò chuyện vui vẻ cùng Alexandr Wang (giữa) và Shengjia Zhao (phải) - Ảnh: Threads
Đào tạo mô hình AI dựa trên thế giới thực
Yann LeCun từng nhiều lần đề cập đến một phương án thay thế mà ông gọi là mô hình dựa trên thế giới thực. Đây là những mô hình được huấn luyện từ các tình huống đời thực và có mức độ nhận thức cao hơn so với AI dựa trên mô hình theo mẫu.
“Bạn có nhận thức hoặc thông tin về tình hình hiện tại của môi trường xung quanh vào một thời điểm nhất định. Mô hình thế giới có thể dự đoán cách thế giới sẽ tiến triển như thế nào do hậu quả của một hành động mà bạn thực hiện”, ông lý giải.
Theo Yann LeCun, do thế giới quá phức tạp và khó lường, cách duy nhất để huấn luyện mô hình AI theo hướng đó là thông qua khái niệm trừu tượng, thay vì chỉ học từ dữ liệu cụ thể hoặc mô hình theo mẫu.
Meta Platforms đã thử nghiệm điều này thông qua V-JEPA, mô hình AI mà hãng đã công bố rộng rãi vào tháng 2. Công ty mẹ Facebook mô tả đây là mô hình AI không tạo sinh, học bằng cách dự đoán các phần bị thiếu hoặc bị che khuất trong một video.
Yann LeCun nói rằng thay vì bắt mô hình AI phải học từng điểm ảnh một cách chính xác (rất khó và tốn kém), nên dạy nó hiểu bản chất và logic trừu tượng của video. Điều đó sẽ giúp mô hình AI dự đoán tốt hơn và bỏ qua những chi tiết không quan trọng hoặc ngẫu nhiên.
Khái niệm này tương tự như cách các nhà hóa học xây dựng một hệ thống phân cấp cơ bản cho các thành phần cấu tạo nên vật chất, ví dụ hạt nguyên tử phân tử vật chất.
“Chúng ta tạo ra các khái niệm trừu tượng. Hạt nguyên tử phân tử vật chất. Mỗi lần đi lên một tầng, chúng ta loại bỏ rất nhiều thông tin từ tầng dưới mà không còn liên quan đến nhiệm vụ đang thực hiện”, ông cho hay.
Tóm lại, đó là một cách khác để nói rằng chúng ta đã học cách hiểu thế giới vật lý bằng cách tạo ra các hệ thống phân cấp.
Hồi cuối tháng 5, Yann LeCun chỉ ra 4 khả năng cốt lõi ở con người mà mô hình AI vẫn chưa chạm tới, theo trang Insider.
Yann LeCun chia sẻ định nghĩa cơ bản của ông về trí thông minh: “Có bốn đặc điểm thiết yếu của hành vi thông minh mà mọi loài động vật, hoặc những động vật tương đối thông minh, đều có thể làm được và tất nhiên con người cũng vậy. Hiểu biết về thế giới vật lý, có trí nhớ bền vững, khả năng suy luận và lập kế hoạch, đặc biệt là lập kế hoạch phức tạp và có tính phân cấp”.
Ông cho rằng AI, đặc biệt là các mô hình ngôn ngữ lớn, vẫn chưa đạt đến ngưỡng này và việc tích hợp các năng lực đó sẽ đòi hỏi sự thay đổi trong cách huấn luyện chúng. Đó là lý do tại sao nhiều hãng công nghệ lớn đang cố gắng lắp ghép các khả năng mới vào các mô hình hiện có trong cuộc đua thống trị lĩnh vực AI.
“Để hiểu thế giới vật lý, bạn huấn luyện một hệ thống thị giác riêng biệt, sau đó gắn nó lên mô hình ngôn ngữ. Với trí nhớ, bạn dùng RAG, hoặc gắn thêm một hệ thống ghi nhớ liên kết, hay đơn giản là làm cho mô hình lớn hơn”, Yann LeCun cho hay.
RAG (tạo sinh có tăng cường truy xuất) là một cách để cải thiện kết quả đầu ra của các mô hình ngôn ngữ lớn bằng cách sử dụng các nguồn kiến thức bên ngoài. Thay vì chỉ dựa vào thông tin đã được học trong quá trình đào tạo ban đầu (có thể bị lỗi thời hoặc thiếu chi tiết), kỹ thuật này kết hợp hai bước chính:
- Truy xuất: Khi nhận được câu hỏi từ người dùng, mô hình AI trước tiên sẽ tìm kiếm và truy xuất thông tin liên quan từ kho kiến thức bên ngoài, chẳng hạn cơ sở dữ liệu, tập hợp tài liệu, trang web…
- Tạo sinh: Mô hình AI sẽ sử dụng những thông tin vừa tìm thấy để tạo ra câu trả lời chính xác và có căn cứ hơn, thay vì chỉ dựa vào những gì đã học từ trước.
Phương pháp nêu trên được phát triển tại Meta Platforms.
Tuy nhiên, tất cả những thứ đó chỉ là “các mẹo vá víu tạm thời”, Yann LeCun tuyên bố.
Sơn Vân