Grounding Language Plans in Demonstrations Through Counterfactual Perturbations

要約

大規模言語モデル (LLM) の常識的な推論を物理領域に根付かせることは、身体化された AI にとって依然として極めて重要かつ未解決の問題です。
これまでの研究では、シンボル空間での計画に LLM を直接活用することに焦点を当てていましたが、この研究では LLM を使用して、タスク構造とマルチステップのデモンストレーションに暗黙的に含まれる制約の検索をガイドします。
具体的には、特定の動作制約によってロボット構成をグループ化するモード ファミリの概念を操作計画の文献から借用し、LLM の高レベル言語表現とロボットの低レベル物理軌道の間の抽象化層として機能します。
合成摂動を使用していくつかの人間のデモンストレーションを再生することにより、追加の成功した実行とタスクに失敗した反事実を含むデモンストレーションの状態空間にわたるカバレッジを生成します。
私たちの説明ベースの学習フレームワークは、失敗から成功の軌跡を予測するためにエンドツーエンドの微分可能ニューラル ネットワークをトレーニングし、その副産物として、密なラベル付けを行わずにモード ファミリ内の低レベルの状態と画像を基礎付ける分類器を学習します。
さらに、学習されたグラウンディング分類子を使用して、言語計画を、解釈可能な方法で物理領域のリアクティブなポリシーに変換することができます。
私たちのアプローチが、2D ナビゲーションと模擬および実際のロボット操作タスクを介した模倣学習の解釈可能性と反応性を向上させることを示します。
ウェブサイト: https://yanweiw.github.io/glide

要約(オリジナル)

Grounding the common-sense reasoning of Large Language Models (LLMs) in physical domains remains a pivotal yet unsolved problem for embodied AI. Whereas prior works have focused on leveraging LLMs directly for planning in symbolic spaces, this work uses LLMs to guide the search of task structures and constraints implicit in multi-step demonstrations. Specifically, we borrow from manipulation planning literature the concept of mode families, which group robot configurations by specific motion constraints, to serve as an abstraction layer between the high-level language representations of an LLM and the low-level physical trajectories of a robot. By replaying a few human demonstrations with synthetic perturbations, we generate coverage over the demonstrations’ state space with additional successful executions as well as counterfactuals that fail the task. Our explanation-based learning framework trains an end-to-end differentiable neural network to predict successful trajectories from failures and as a by-product learns classifiers that ground low-level states and images in mode families without dense labeling. The learned grounding classifiers can further be used to translate language plans into reactive policies in the physical domain in an interpretable manner. We show our approach improves the interpretability and reactivity of imitation learning through 2D navigation and simulated and real robot manipulation tasks. Website: https://yanweiw.github.io/glide

arxiv情報

著者 Yanwei Wang,Tsun-Hsuan Wang,Jiayuan Mao,Michael Hagenow,Julie Shah
発行日 2024-04-29 04:34:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.RO パーマリンク