要約
模倣学習とモデルベースの計画を統合することにより、長老のロボット操作のフレームワークである言語とデモンストレーション(Blade)から行動を紹介します。
Bladeは、言語が注目したデモンストレーションを活用し、大規模な言語モデル(LLM)から抽象的なアクション知識を抽出し、構造化された高レベルのアクション表現のライブラリを構築します。
これらの表現には、ニューラルネットワークベースのポリシーとして実装された対応するコントローラーとともに、各高レベルアクションの視覚的認識に基づいた前提条件と効果が含まれます。
ブレードは、手動でラベル付けされた状態または象徴的な定義なしで、そのような構造化された表現を自動的に回復できます。
ブレードは、新しい初期状態、外部状態摂動、新しい目標など、新しい状況に一般化する重要な能力を示しています。
シミュレーションと、明確な部分、部分的な観測可能性、幾何学的制約を備えたオブジェクトの多様なセットを備えた実際のロボットの両方でのアプローチの有効性を検証します。
要約(オリジナル)
We introduce Behavior from Language and Demonstration (BLADE), a framework for long-horizon robotic manipulation by integrating imitation learning and model-based planning. BLADE leverages language-annotated demonstrations, extracts abstract action knowledge from large language models (LLMs), and constructs a library of structured, high-level action representations. These representations include preconditions and effects grounded in visual perception for each high-level action, along with corresponding controllers implemented as neural network-based policies. BLADE can recover such structured representations automatically, without manually labeled states or symbolic definitions. BLADE shows significant capabilities in generalizing to novel situations, including novel initial states, external state perturbations, and novel goals. We validate the effectiveness of our approach both in simulation and on real robots with a diverse set of objects with articulated parts, partial observability, and geometric constraints.
arxiv情報
著者 | Weiyu Liu,Neil Nie,Ruohan Zhang,Jiayuan Mao,Jiajun Wu |
発行日 | 2025-05-28 05:19:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google