AI Agent và cuộc cách mạng 'Internet không người lái'

10 giờ trướcBài gốc

Những ngày vừa qua, AI Agent Manus của Trung Quốc đã gây xôn xao cộng đồng công nghệ thế giới. Theo nhà phát triển, công cụ có thể làm được những công việc phức tạp như rà quét hồ sơ ứng viên, lên lịch trình du lịch, phân tích cổ phiếu khi người dùng đưa ra hướng dẫn cơ bản.

Trước khi Manus ra mắt AI Agent, một “ông lớn” AI của Mỹ là OpenAI đã giới thiệu Operator với người dùng ChatGPT Pro tại Mỹ. Theo OpenAI, tác nhân AI này có thể thay mặt chủ nhân thực hiện các nhiệm vụ đơn giản trên một trình duyệt như đặt vé xem hòa nhạc hay đặt hàng qua mạng.

Operator dựa trên mô hình mới có tên Computer-Using Agent - CUA, được xây dựng trên mô hình ngôn ngữ lớn đa phương thức GPT-4o. Nhà nghiên cứu Yash Kumar của OpenAI thừa nhận nó mới đang ở giai đoạn đầu và vẫn còn thiếu sót.

Tương tự các AI Agent khác, Operator chụp ảnh màn hình máy tính, quét các điểm ảnh để xác định những hành động cần thực hiện. CUA, mô hình phía sau, được đào tạo để tương tác với giao diện đồ họa như các nút, trình đơn, hộp thoại văn bản vốn quen thuộc với con người.

Theo Reiichiro Nakano, một nhà khoa học khác của OpenAI, các mô hình truyền thống sử dụng phần mềm thông qua API (giao diện lập trình ứng dụng) chuyên biệt, dẫn đến nhiều hạn chế.

CUA còn chia công việc thành những bước nhỏ hơn và cố gắng thực hiện từng bước một, cũng như quay lại ban đầu nếu gặp trục trặc. Hiện tại, Operator chỉ làm được một số việc trong trình duyệt riêng.

OpenAI dự định mở rộng khả năng của CUA trong tương lai thông qua một API (giao diện lập trình ứng dụng) để các nhà phát triển viết ứng dụng riêng dựa trên nó.

Ngoài ra, OpenAI cũng thử nghiệm tính an toàn của CUA, sử dụng nhóm Red Team để xác định những gì sẽ xảy ra nếu người dùng yêu cầu AI Agent làm những nhiệm vụ không thể chấp nhận được (chẳng hạn sản xuất vũ khí sinh học).

Nhà báo Kevin Roose của New York Times đã yêu cầu Operator làm một số việc cho mình như đặt mua muỗng múc kem qua Amazon, mua tên miền mới rồi cấu hình lại, đặt nhà hàng cho ngày 14/2, đặt lịch cắt tóc.

Cây bút nhận xét AI Agent tự làm hầu hết mọi thứ nhưng thi thoảng anh phải “giải cứu” nó sau một số nỗ lực bất thành.

Roose mô tả Operator có vẻ giống với ChatGPT thông trường, trừ việc khi giao nhiệm vụ cho nó, tác nhân AI này sẽ mở ra một cửa sổ trình duyệt mini, tự nhập Amazon.com vào thanh địa chỉ và bắt đầu nhấp chuột để thao tác.

Trong quá trình, nó sẽ đặt ra vài câu hỏi để làm rõ ý đồ của chủ nhân như thời gian giao hàng… Sau khi chắc chắn đã chọn đúng, nó gửi đến xác nhận cuối cùng, bỏ món hàng vào giỏ và tiến hành đặt hàng.

Điểm quan trọng nhất ở đây là người dùng không phải giám sát nó mà nó hoạt động trong nền.

Dù vậy, Operator cũng thất bại ở một số nhiệm vụ khác vì bị chặn ở một số website như Reddit, YouTube hay không vượt qua được bài kiểm tra CAPTCHA.

Hiện tại, chưa có một định nghĩa “chuẩn” về AI Agent, song theo Rudina Seseri, nhà sáng lập kiêm quản lý hãng đầu tư mạo hiểm Glasswing, tác nhân AI là hệ thống phần mềm thông minh, được thiết kế để hiểu về môi trường hoạt động, suy luận, ra quyết định và hành động nhằm đạt mục tiêu một cách tự động.

AI Agent sử dụng nhiều kỹ thuật AI/ML để làm được điều đó, chẳng hạn xử lý ngôn ngữ tự nhiên, máy học, thị giác máy tính.

Aaron Levie, nhà sáng lập kiêm CEO Box, chỉ ra, theo thời gian, khi AI có nhiều khả năng hơn, AI Agent sẽ làm được nhiều việc thay cho con người.

Jared Spataro, Giám đốc tiếp thị AI at Work, tại Microsoft xem AI Agent là “các ứng dụng mới trong thế giới do AI điều khiển”. Họ bổ sung các tính năng mới để giải quyết “nỗi đau lớn nhất” của mỗi cá nhân tại nơi làm việc để thúc đẩy kết quả kinh doanh thực tế.

AI Agent đưa sức mạnh của AI tạo sinh đi xa hơn vì không chỉ hỗ trợ con người, nó còn làm việc cùng với họ hay thay mặt họ. Theo IBM, AI agent dựa trên thông tin tiếp nhận để hành động.

Vì không có nền tảng kiến thức toàn diện để xử lý mọi nhiệm vụ, nó sẽ sử dụng các công cụ có sẵn, bao gồm bộ dữ liệu bên ngoài, tìm kiếm trên web, API hay thậm chí AI Agent khác.

Sau khi thu thập thông tin còn thiếu, tác nhân sẽ nâng cấp kiến thức của mình. Điều đó đồng nghĩa với mỗi bước, nó sẽ đánh giá lại kế hoạch hành động và tự điều chỉnh.

Còn quá sớm để phán đoán AI Agent có phải nguy cơ với con người hay không. Song, không khó để tưởng tượng một tương lai gần, nơi phần lớn thế giới web sẽ toàn là robot nói chuyện với nhau, mua sắm hay viết email thay cho chủ nhân.

Một “Internet không người lái” đang dần trở thành hiện thực, vì vậy, “hãy nhấp chuột khi còn có thể”, cây bút của Roose của New York Times kết luận.

Du Lam

Nguồn VietnamNet : https://vietnamnet.vn/ai-agent-va-cuoc-cach-mang-internet-khong-nguoi-lai-2379590.html