Các mô hình mới mang tên Gemini Robotics và Gemini Robotics-ER, được thiết kế để giúp robot thích ứng với môi trường phức tạp bằng cách tận dụng khả năng suy luận của các mô hình ngôn ngữ lớn, nhằm thực hiện các nhiệm vụ thực tế phức tạp.
Một robot chạy mô hình AI Gemini Robotics đặt một quả bóng vào rổ mini. Ảnh: Google DeepMind
Theo Google DeepMind, một robot được huấn luyện bằng các mô hình mới này có thể gấp giấy thành hình con cáo origami, sắp xếp bàn làm việc theo hướng dẫn bằng lời nói, quấn dây tai nghe và thực hiện cú úp rổ bóng rổ mini. Công ty cũng đang hợp tác với start-up Apptronik để chế tạo robot hình người sử dụng công nghệ này.
Sự phát triển này diễn ra trong bối cảnh các tập đoàn công nghệ, bao gồm Tesla và OpenAI, cùng các start-up đang chạy đua để xây dựng "bộ não" AI có thể vận hành robot một cách tự động, hứa hẹn thay đổi nhiều ngành công nghiệp, từ sản xuất đến chăm sóc sức khỏe.
Jensen Huang, CEO của hãng sản xuất chip Nvidia, cho biết việc sử dụng AI tạo sinh để triển khai robot ở quy mô lớn đại diện cho cơ hội trị giá hàng nghìn tỷ đô la, mở đường cho "ngành công nghệ lớn nhất mà thế giới từng chứng kiến".
Tiến bộ trong lĩnh vực robot tiên tiến đã tiến triển chậm chạp trong những thập kỷ gần đây, khi các nhà khoa học phải lập trình thủ công từng động tác của robot. Nhờ các kỹ thuật AI mới, các nhà khoa học đã có thể huấn luyện robot thích ứng tốt hơn với môi trường xung quanh và học các kỹ năng mới nhanh hơn.
Kanishka Rao, kỹ sư phần mềm chính tại Google DeepMind, cho biết: "Gemini Robotics có tính tổng quát gấp đôi so với các mô hình tốt nhất trước đây của chúng tôi, thực sự tạo ra bước tiến đáng kể hướng tới các robot đa dụng".
Để tạo ra mô hình Gemini Robotics, Google đã sử dụng mô hình ngôn ngữ Gemini 2.0 và huấn luyện nó đặc biệt để điều khiển robot. Điều này cải thiện hiệu suất của robot và cho phép chúng thực hiện ba nhiệm vụ: điều chỉnh theo các tình huống mới khác nhau, phản ứng nhanh chóng với hướng dẫn bằng lời nói hoặc thay đổi trong môi trường, và đủ khéo léo để thao tác các vật thể.
Để phát triển Gemini Robotics, Google DeepMind đã tận dụng hiểu biết rộng về thế giới của các mô hình ngôn ngữ lớn được huấn luyện trên dữ liệu từ internet. Ví dụ, một robot có thể suy luận rằng nó nên cầm một tách cà phê bằng hai ngón tay.
Ken Goldberg, giáo sư robot tại Đại học California, Berkeley, người không tham gia vào nghiên cứu, nhận xét: "Đây chắc chắn là một phát triển thú vị trong lĩnh vực robot, dường như dựa trên thế mạnh của Google về dữ liệu và tính toán quy mô lớn".
Russ Tedrake, giáo sư tại Viện Công nghệ Massachusetts và phó chủ tịch nghiên cứu robot tại Viện Nghiên cứu Toyota, nhận xét: "Đây là một nỗ lực toàn diện ấn tượng với các kết quả thuyết phục, từ suy luận không gian đến thao tác khéo léo. Đó là bằng chứng khá thuyết phục rằng các mô hình cơ sở mạnh hơn có thể dẫn đến hiệu suất thao tác tốt hơn".
Giáo sư Goldberg cho biết: "Gemini là một bước quan trọng", tuy nhiên vẫn "còn nhiều việc phải làm trước khi các robot đa dụng sẵn sàng được áp dụng rộng rãi".
Cao Phong (theo FT, NYT, Fortune)