Robot dạng người làm chủ chuỗi nhiệm vụ, tiến gần đến công việc tự động
Công ty tuyên bố video giới thiệu sự khởi đầu của hành trình 1X trong việc phát triển hệ thống trí tuệ nhân tạo (AI) tiên tiến. Hệ thống xâu chuỗi tác vụ đơn giản thành chuỗi hành động phức tạp thông qua lệnh thoại, cho phép điều khiển nhiều robot và vận hành từ xa một cách liền mạch.
Công ty 1X Technologies áp dụng AI và điều khiển từ xa huấn luyện robot Eve, điều khiển chuỗi kỹ năng thông qua khẩu lệnh.
Android của 1X sử dụng “Học tập thể hiện” - một phương pháp tích hợp phần mềm AI trực tiếp vào dạng vật lý của chúng để có được các khả năng nâng cao. Trước đó, robot 1X đã thể hiện khả năng nhặt và thao tác vật thể đơn giản. Tuy nhiên, nhóm tin rằng android của họ phải thành thạo khả năng xâu chuỗi các nhiệm vụ lại với nhau để trở thành robot dịch vụ hiệu quả. Nhóm nhà nghiên cứu tại 1X đã phát triển một mô hình tự động cho android của mình, kết hợp nhiều nhiệm vụ thành một mạng lưới thần kinh có điều kiện mục tiêu duy nhất. Tuy nhiên, khi mô hình đa tác vụ này có kích thước nhỏ (dưới 100M tham số), việc thêm dữ liệu để sửa một tác vụ thường tác động tiêu cực đến hiệu suất của những tác vụ khác.
Theo nhóm nghiên cứu, việc tăng số lượng tham số mô hình có thể giảm thiểu vấn đề “quên” này, nhưng nó cũng kéo dài thời gian đào tạo, làm chậm khả năng của kỹ sư trong việc xác định những vấn đề nào cần thu thập để cải thiện hành vi của robot. Để lặp lại dữ liệu nhanh chóng trong khi xây dựng một robot tổng quát có khả năng thực hiện nhiều nhiệm vụ với một mạng thần kinh duy nhất, nhóm phải tách riêng quy trình cải thiện nhanh chóng hiệu suất nhiệm vụ bằng cách tích hợp nhiều khả năng vào một mạng thần kinh duy nhất.
Alex Gu, CEO và nhà sáng lập Fourier Intelligence.
Eric Jang, Phó chủ tịch AI tại 1X Technologies, cho biết trong một bài đăng trên blog rằng: “Để thực hiện được điều này, chúng tôi xây dựng giao diện ngôn ngữ tự nhiên được điều khiển bằng giọng nói để xâu chuỗi các khả năng ngắn hạn trên nhiều mô hình nhỏ thành các mô hình dài hơn, với việc con người chỉ đạo chuỗi kỹ năng, điều này cho phép chúng tôi thực hiện những hành vi có tầm nhìn dài hạn”. Eric là người đứng đầu nhóm AI tại 1X Technologies, một công ty robot hình người tích hợp theo chiều dọc. Nền tảng nghiên cứu của Eric Jang là về thao tác di động đầu cuối và các mô hình tạo ra. Eric gần đây đã viết một cuốn sách về tương lai của AI và Robot, có tựa đề “AI is Good for You”.
Việc kết hợp nhiều kỹ năng của robot tự động thành một chuỗi là một thách thức vì mỗi kỹ năng tiếp theo phải khái quát hóa các vị trí bắt đầu hơi khác nhau do kỹ năng trước đó tạo ra. Theo 1X, độ khó này tăng dần theo từng kỹ năng kế tiếp: kỹ năng thứ hai phải xử lý mọi biến thể của kỹ năng đầu tiên, kỹ năng thứ ba phải thích ứng với kết quả của kỹ năng thứ hai... Mặc dù con người có thể thực hiện mọi nhiệm vụ dài hạn một cách dễ dàng, nhưng việc sao chép nhiệm vụ này bằng robot đòi hỏi phải giải quyết được độ phức tạp của các biến thể tuần tự này.
Jang bình luận: “Từ góc độ người dùng, robot có khả năng thực hiện nhiều nhiệm vụ bằng ngôn ngữ tự nhiên và số lượng mô hình thực tế điều khiển robot bị loại bỏ. Điều này cho phép chúng tôi hợp nhất các mô hình nhiệm vụ đơn lẻ thành các mô hình có mục tiêu theo thời gian”.
Các mô hình một nhiệm vụ cung cấp đường cơ sở vững chắc cho việc đánh giá chế độ bóng tối, cho phép nhóm so sánh những dự đoán của mô hình mới với đường cơ sở hiện có trong quá trình thử nghiệm. Khi mô hình điều chỉnh mục tiêu phù hợp tốt với dự đoán của mô hình nhiệm vụ đơn lẻ, nhóm nhà nghiên cứu có thể chuyển sang mô hình thống nhất, mạnh mẽ hơn mà không làm thay đổi quy trình làm việc của người dùng. Việc sử dụng giao diện ngôn ngữ cấp cao điều khiển robot mang lại trải nghiệm mới cho người dùng trong việc thu thập dữ liệu.
Jang cho biết: “Thay vì sử dụng VR điều khiển một robot duy nhất, người vận hành có thể điều khiển nhiều robot bằng ngôn ngữ cấp cao và để các chính sách cấp thấp thực hiện những hành động cấp thấp để hiện thực hóa các mục tiêu cấp cao đó. Vì mọi hành động cấp cao được gửi không thường xuyên nên người vận hành thậm chí có thể điều khiển robot từ xa”.
Nhóm nhà nghiên cứu nhấn mạnh video giới thiệu robot chuyển đổi nhiệm vụ dựa trên sự chỉ đạo của con người, cho thấy quá trình này không hoàn toàn tự động. Sau khi tạo tập dữ liệu gồm các cặp lệnh ngôn ngữ từ tầm nhìn đến ngôn ngữ tự nhiên, bước hợp lý tiếp theo là tự động hóa việc dự đoán hành động cấp cao. Điều này có thể đạt được bằng cách sử dụng loại mô hình ngôn ngữ tầm nhìn như GPT-4o, VILA và Gemini Vision.
Eric Jang viết trong một bài đăng trên blog: “Chúng tôi đã xây dựng một công cụ dữ liệu để giải quyết các tác vụ thao tác di động thông thường theo cách hoàn toàn từ đầu đến cuối. Chúng tôi đã tự thuyết phục mình rằng nó hiệu quả, vì vậy hiện chúng tôi đang thuê các nhà nghiên cứu AI để mở rộng quy mô lên gấp 10 lần số lượng robot và thiết bị điều khiển từ xa”.
Fourier GR-1 được trang bị giải pháp thị giác thuần túy.
Hé lộ khả năng tiên tiến mới của robot hình người GR-II
Robot hình người này trang bị hệ thống thị giác thuần túy dựa trên camera với mạng lưới chiếm dụng, mô hình máy biến áp và chế độ xem toàn cảnh (BEV), giúp cải tiến công nghệ nhận thức. Công ty sản xuất robot Fourier Intelligence (Trung Quốc) vừa hé lộ mẫu robot hình người mới GR-2, dự kiến sẽ có bước tiến đáng kể về khả năng của robot. Vào giữa năm 2023, Fourier Intelligence giới thiệu robot hai chân đa năng đầu tiên của mình, GR-1. Trọng tâm chính của robot hình người này là hỗ trợ người cao tuổi thực hiện nhiều chức năng khác nhau.
Mặc dù đoạn video giới thiệu mới cung cấp ít thông tin về robot mới, nhưng nó cho thấy GR-II là sản phẩm hoàn thiện và tiên tiến hơn, nhằm phục vụ nhiều đối tượng khách hàng đa dạng hơn. Fourier cũng triển khai robot đa năng trên quy mô lớn trong bối cảnh y tế và phục hồi chức năng. Thông qua ma trận sản phẩm RehabHubTM, công ty cung cấp cho bệnh nhân quyền truy cập vào các giải pháp hoàn chỉnh và robot phục hồi chức năng hiệu suất cao.
Trong một video phát hành vào cuối năm 2023, GR-1 cũng được nhìn thấy thực hiện một số chuyển động năng động - chuyển động ngón tay, vẫy tay, đấm không khí, động tác ngồi xổm, xoay eo và một chút đi bộ bằng chân cứng. GR-1, lần đầu tiên được giới thiệu tại Hội nghị Trí tuệ nhân tạo thế giới năm 2023, được thiết kế nhằm giúp hỗ trợ bệnh nhân thực hiện nhiều nhiệm vụ - bao gồm di chuyển từ giường sang xe lăn. Dự án GR-1 được khởi xướng vào năm 2019, bao gồm một số robot hình người nhằm đáp ứng nhu cầu ngày càng tăng về liệu pháp hỗ trợ trí tuệ nhân tạo (AI) và tình bạn cho dân số già của Trung Quốc.
Với GR-1, nhóm nhà phát triển Fourier tạo ra một thiết bị không chỉ có chức năng chăm sóc, nhờ vào sự kết hợp khéo léo giữa chức năng và tính độc đáo. GR-1 có thể nâng được 50 kg đáng kinh ngạc nhờ bộ truyền động hông 300Nm (Newton-meter). Đây là hiệu suất ấn tượng đối với một robot có kích thước như vậy.
Eric Jang, Phó Chủ tịch AI tại 1X Technologies.
Nhờ tính năng này, GR-1 được coi là hữu ích giúp bệnh nhân thực hiện nhiều nhiệm vụ - chẳng hạn như sử dụng xe lăn hoặc ra khỏi giường. Người máy GR-1 đã chứng kiến nhiều cải tiến quan trọng trong thời gian qua, tất cả đều được kỳ vọng sẽ có trong phiên bản GR-2 sắp tớ, bao gồm đôi tay khéo léo hơn, khả năng thực hiện nhiều nhiệm vụ khác nhau, điều khiển từ xa VR và phân tích chuyển động. Hơn nữa, GR-I hiện đã hoàn thành khóa đào tạo tương tác bằng giọng nói, có tính năng điều khiển robot bằng giao diện não - máy tính và có thể bắt chước chính xác các hành động của con người.
Vào tháng 6/2024, công ty tiết lộ họ đã tích hợp một hệ thống thị giác thuần túy dựa trên camera bao gồm mạng lưới chiếm dụng, mô hình máy biến áp và BEV, đánh dấu bước tiến đáng kể trong công nghệ nhận thức dành cho robot hình người GR-1. Nhận thức về môi trường rất quan trọng đối với robot hình người khi chuyển từ phòng thí nghiệm sang ứng dụng thực tế. Nó cho phép chúng hiểu được môi trường xung quanh và đưa ra quyết định sáng suốt dựa trên dữ liệu cảm biến.
Trong thiết lập thị giác thuần túy mới của Fourier, robot GR-1 được trang bị 6 camera RGB, cung cấp góc nhìn 360 độ, cho phép nó nhận biết môi trường từ mọi góc độ và tạo ra hình ảnh toàn cảnh để nhận dạng và theo dõi chính xác. Sử dụng những bức ảnh BEV này, GR-1 sử dụng mô hình máy biến áp để chuyển đổi môi trường phức tạp thành thông tin không gian 3D để có thể nhận dạng bố cục và đánh giá mức độ chiếm dụng.
Để GR-1 di chuyển qua những địa điểm có thể đi qua và không thể tiếp cận, mạng lưới chiếm dụng sau đó tạo ra một lưới 3D. GR-1 đã nhận dạng thành công ô tô và người đi bộ trong những thử nghiệm bên ngoài, thể hiện khả năng theo dõi đối tượng theo thời gian thực và khả năng lập bản đồ môi trường.
Robot hình người GR-II của Fourier.
Fourier tuyên bố bằng cách tập trung hoàn toàn vào camera, khả năng nhận thức về môi trường của GR-1 được cải thiện và chi phí phần cứng được giảm xuống, cho phép đạt được độ chính xác như con người trong mọi hoạt động an toàn và hiệu quả.
Diên San (Tổng hợp)