Trong giai đoạn 2023 - 2024, trung tâm của làn sóng AI là mô hình ngôn ngữ lớn (LLM) như GPT của OpenAI, Google Gemini, Claude của Anthropic, Meta Llama. Giá trị cốt lõi của LLM là hiểu và sinh ngôn ngữ như trả lời câu hỏi, viết văn bản, lập trình, tóm tắt, suy luận bằng chữ. Tuy nhiên, hạn chế lớn nhất của LLM là chủ yếu dừng lại ở việc tư vấn và tạo nội dung, còn phần hành động thực tế (đặt vé, xử lý hóa đơn, điều khiển phần mềm, thao tác trên web) vẫn phải do con người hoặc các hệ thống tự động hóa truyền thống đảm nhiệm.
Từ năm 2025, dân công nghệ bắt đầu nói nhiều đến mô hình hành động quy mô lớn (LAM) như một bước tiến tiếp theo. Theo cách các công ty và giới truyền thông mô tả, LAM không chỉ hiểu ngôn ngữ mà còn hiểu giao diện, trạng thái hệ thống và có khả năng thực thi hành động: Tự nhấp chuột, tự điền form, gọi API (giao diện lập trình ứng dụng), điều khiển phần mềm, thậm chí thao tác trong môi trường vật lý như robot hoặc thiết bị IoT (Internet vạn vật). Một số bài viết gọi đây là sự chuyển dịch từ thời kỳ AI tư vấn sang AI trực tiếp làm việc.
Không ít công ty AI đã dùng thuật ngữ LAM để nhấn mạnh rằng AI của họ không chỉ trả lời mà có thể hoàn thành trọn vẹn một quy trình kinh doanh. Trong các ví dụ tiếp thị, LLM là “tôi sẽ hướng dẫn bạn đặt vé”, còn LAM là “tôi đã đặt vé, đặt khách sạn và gửi xác nhận cho bạn”.
LAM có phải là kiến trúc mô hình mới?
Điều quan trọng cần làm rõ: Tính đến đầu năm 2026, LAM chưa phải là một kiến trúc nền tảng thay thế LLM. LAM khác biệt LLM ở chỗ được bổ sung thêm nhiều lớp phần mềm để biến khả năng hiểu ngôn ngữ thành hành động cụ thể trong thế giới số.
Ngoài LLM, LAM thường tích hợp thêm các thành phần như công nghệ thị giác máy tính để nhìn và hiểu giao diện phần mềm, màn hình và các nút bấm; bộ lập kế hoạch để chia một mục tiêu lớn thành nhiều bước nhỏ; lớp thực thi để gọi API, điều khiển trình duyệt, RPA (công nghệ tự động hóa quy trình bằng phần mềm) hoặc các ứng dụng doanh nghiệp; cơ chế ghi nhớ và theo dõi trạng thái để tác tử AI biết mình đang làm đến đâu trong toàn bộ quy trình.
Nói cách khác, LAM hiện không phải là mô hình hoàn toàn mới thay thế LLM, mà giống cách đóng gói và mở rộng của LLM, giúp AI không chỉ “nói” mà còn có thể “làm”, tức trực tiếp thao tác trên phần mềm và quy trình kinh doanh.
Nói một cách dễ hiểu, trong phần lớn trường hợp hiện nay, LAM thực chất là sự kết hợp giữa LLM và các lớp phần mềm giúp AI thực hiện hành động, như hệ thống điều khiển phần mềm, lớp điều phối quy trình và các công cụ tự động hóa. LAM không phải là một loại mô hình hoàn toàn mới theo nghĩa khoa học, giống cách kiến trúc transformer từng thay thế RNN (mạng nơ-ron hồi tiếp).
Transformer và RNN là hai kiến trúc quan trọng trong lĩnh vực học máy, đặc biệt là xử lý ngôn ngữ tự nhiên và chuỗi dữ liệu theo thời gian.
RNN là thế hệ cũ hơn, được thiết kế để xử lý dữ liệu theo chuỗi, từng bước một, ví dụ từng từ trong một câu hoặc từng mốc thời gian trong chuỗi dữ liệu. RNN có “trí nhớ” ngắn hạn, vì thông tin từ bước trước được truyền sang bước sau, gặp khó khăn khi phải ghi nhớ thông tin ở khoảng cách xa (ví dụ đầu và cuối một văn bản dài), dễ bị mất thông tin và huấn luyện chậm.
Transformer là kiến trúc mới hơn, ra đời năm 2017, và là nền tảng của hầu hết mô hình AI hiện đại như GPT, BERT, Claude, Gemini hay LLaMA. Điểm khác biệt lớn nhất của transformer là cơ chế attention (chú ý), cho phép mô hình xem xét toàn bộ câu hoặc toàn bộ chuỗi dữ liệu cùng lúc, thay vì xử lý từng bước tuần tự như RNN. Nhờ đó, transformer hiểu tốt hơn mối quan hệ giữa các từ ở xa nhau, huấn luyện nhanh hơn trên phần cứng như GPU (bộ xử lý đồ họa) và có thể mở rộng lên mô hình rất lớn.
Nói ngắn gọn, RNN giống như đọc từng chữ một từ đầu đến cuối, còn transformer giống nhìn toàn bộ câu cùng lúc và tự xác định phần nào quan trọng. Vì vậy, transformer đã gần như thay thế RNN trong hầu hết hệ thống AI ngôn ngữ hiện đại.
Vì vậy, nhiều chuyên gia cho rằng khái niệm LAM hiện nay mang tính định vị sản phẩm và tiếp thị nhiều hơn là định nghĩa kỹ thuật chặt chẽ. Các phân tích gần đây cũng chỉ ra rằng chưa có kiến trúc chuẩn công khai nào cho thấy LAM là thế hệ mô hình nền tảng hoàn toàn khác biệt so với hệ thống tác tử AI dựa trên LLM.
Tuy nhiên, giới nghiên cứu đã bắt đầu xuất hiện những hướng đi nghiêm túc nhằm mở rộng LLM theo hướng tập trung vào hành động. Một số nhà nghiên cứu đang tìm cách xây dựng mô hình và framework (khung phần mềm) giúp kiểm soát tốt hơn việc AI thực hiện hành động, đảm bảo các bước có thể theo dõi, kiểm tra và tái lập (chạy lại nhiều lần theo cùng cách) khi cần. Đây là những yếu tố rất quan trọng trong môi trường doanh nghiệp, nơi AI không chỉ cần “thông minh” mà còn phải “đáng tin cậy” và dễ kiểm soát.
Điều này cho thấy LAM đang dần được cụ thể hóa về mặt kỹ thuật, nhưng hiện vẫn chưa đủ rõ ràng để được coi là một mô hình nền tảng thế hệ mới, tách biệt hoàn toàn với LLM.
Chưa thay thế LLM về mặt kiến trúc, LAM vẫn được xem là một hướng đi rất quan trọng vì phản ánh sự dịch chuyển trọng tâm của thị trường AI - Ảnh: MTG
LAM và tác tử AI: Sự nhập nhằng khái niệm
Một lý do khiến khái niệm LAM gây nhiều tranh cãi là vì rất dễ bị nhầm lẫn với tác tử AI. Trên thực tế, nhiều hệ thống trên thị trường hiện nay dù được gọi là LAM hay tác tử AI đều làm những việc gần giống nhau: Nhận mục tiêu từ người dùng, tự lập kế hoạch, gọi các công cụ cần thiết và thực hiện hành động trên phần mềm hoặc hệ thống.
Một số ý kiến cố gắng phân biệt rằng tác tử AI là “nhân vật thực hiện công việc”, còn LAM là “động cơ phía sau” (tức giúp tác tử AI suy nghĩ và hành động). Tuy nhiên, cách phân biệt này chưa có tiêu chuẩn chung và cũng chưa được giới kỹ thuật hay thị trường thống nhất rộng rãi.
Nhiều sản phẩm AI về bản chất vẫn dựa trên LLM kết hợp với các lớp phần mềm tự động hóa, nhưng được đổi tên thành LAM để tạo cảm giác về làn sóng công nghệ mới. Hiện tượng này tương tự các chu kỳ trước, khi những thuật ngữ như học sâu, mô hình nền tảng hay AI đa phương thức từng được dùng để tái định vị sản phẩm và thu hút sự chú ý của thị trường.
Vì sao LAM vẫn được coi là xu hướng lớn?
Dù chưa thay thế LLM về mặt kiến trúc, LAM vẫn được xem là một hướng đi rất quan trọng vì phản ánh sự dịch chuyển trọng tâm của thị trường AI. Nếu LLM là nền tảng để hiểu và tạo ngôn ngữ, thì LAM là cầu nối để biến hiểu biết đó thành hành động có giá trị kinh tế trực tiếp. Đây chính là lý do nhiều hãng công nghệ lớn đang đầu tư mạnh vào tác tử AI và các hệ thống hành động.
Google đang từng bước biến Chrome từ trình duyệt thụ động thành nền tảng cho tác tử AI với tính năng như Auto browse, cho phép AI tự duyệt web, mở thẻ, điền biểu mẫu và hoàn thành các tác vụ thay người dùng.
Microsoft mở rộng Copilot thành nền tảng tác tử AI trong Office, Windows và Azure. Salesforce quảng bá LAM như lớp trung tâm của Agentforce, nơi AI có thể trực tiếp thực hiện các quy trình CRM (quản lý quan hệ khách hàng).
Thương vụ mua lại Manus với giá 2,5 tỉ USD cho thấy Meta Platforms coi tác tử AI là chiến lược dài hạn.
Được thành lập tại Trung Quốc trước khi chuyển trụ sở sang Singapore, Manus chuyên phát triển tác tử AI đa năng, có thể hoạt động như nhân viên kỹ thuật số, thực hiện các nhiệm vụ như nghiên cứu và tự động hóa một cách độc lập, với sự hướng dẫn tối thiểu.
Sơn Vân