Grounding Robot Policies with Visuomotor Language Guidance

要約

自然言語処理とコンピューター ビジョンの分野における最近の進歩により、大規模なインターネット データから世界の根底にある力学を理解する上で大きな可能性が示されています。
しかし、人間とロボットのインタラクションが不足していることと、現実世界のロボット データの大規模なデータセットが不足していることを考慮すると、この知識をロボット システムに変換することは依然として未解決の課題です。
行動クローニングや強化学習などのこれまでのロボット学習アプローチは、人間のデモンストレーションから、または特定の環境でゼロからロボットのスキルを学習する優れた能力を示してきました。
ただし、これらのアプローチでは、タスク固有のデモンストレーションや複雑なシミュレーション環境の設計が必要になることが多く、新しい設定に対する一般化可能で堅牢なポリシーの開発が制限されます。
これらの制限に対処することを目的として、視覚運動に基づいた言語ガイダンスを使用して現在のロボットとその環境の制約を考慮し、現在のコンテキストにロボットのポリシーを根付かせるためのエージェントベースのフレームワークを提案します。
提案されたフレームワークは、特定の役割、つまり高レベルのアドバイザー、視覚的グラウンディング、モニタリング、ロボット エージェント向けに設計された一連の会話型エージェントで構成されています。
基本ポリシーが与えられると、エージェントは実行時に集合的にガイダンスを生成し、基本ポリシーのアクション分布をより望ましい将来の状態に向けてシフトします。
私たちのアプローチは、人間による追加のデモンストレーションや広範な調査を必要とせずに、シミュレーションと現実世界の実験の両方で大幅に高い成功率を達成するために操作ポリシーを効果的に導くことができることを実証します。
https://sites.google.com/view/motorcortex/home でビデオを投影します。

要約(オリジナル)

Recent advances in the fields of natural language processing and computer vision have shown great potential in understanding the underlying dynamics of the world from large-scale internet data. However, translating this knowledge into robotic systems remains an open challenge, given the scarcity of human-robot interactions and the lack of large-scale datasets of real-world robotic data. Previous robot learning approaches such as behavior cloning and reinforcement learning have shown great capabilities in learning robotic skills from human demonstrations or from scratch in specific environments. However, these approaches often require task-specific demonstrations or designing complex simulation environments, which limits the development of generalizable and robust policies for new settings. Aiming to address these limitations, we propose an agent-based framework for grounding robot policies to the current context, considering the constraints of a current robot and its environment using visuomotor-grounded language guidance. The proposed framework is composed of a set of conversational agents designed for specific roles — namely, high-level advisor, visual grounding, monitoring, and robotic agents. Given a base policy, the agents collectively generate guidance at run time to shift the action distribution of the base policy towards more desirable future states. We demonstrate that our approach can effectively guide manipulation policies to achieve significantly higher success rates both in simulation and in real-world experiments without the need for additional human demonstrations or extensive exploration. Project videos at https://sites.google.com/view/motorcortex/home.

arxiv情報

著者 Arthur Bucker,Pablo Ortega-Kral,Jonathan Francis,Jean Oh
発行日 2024-10-10 04:03:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク