Verifiably Following Complex Robot Instructions with Foundation Models

要約

ロボットが複雑な自然言語の指示に従えるようにすることは、重要ではあるものの、困難な問題です。
人はロボットに指示を与える際に、制約を柔軟に表現したり、任意のランドマークを参照したり、動作を検証したりしたいと考えています。
逆に、ロボットは人間の命令を仕様に明確にし、現実世界での命令の指示対象を明確にする必要があります。
我々は、基礎モデルと時相論理を活用して命令条件付きセマンティックマップを生成するシステムである、言語命令グラウンディングフォーモーションプランニング(LIMP)を提案します。これにより、ロボットは、オープンボキャブラリーの指示対象と複雑な時空間制約を備えた表現力豊かで長期的な命令に検証可能に従うことができます。
ロボットのタスク実行で基礎モデルを使用する従来の方法とは対照的に、LIMP は説明可能な命令表現を構築し、ロボットとインストラクターの意図した動機との整合性を明らかにし、構築ごとに正しいロボットの動作の合成を可能にします。
私たちは、35 の複雑な時空間命令セットにわたる 3 つの現実世界の環境で LIMP を実証し、私たちのアプローチの汎用性と新しい非構造化ドメインでの展開の容易さを示します。
私たちの実験では、LIMP は、オブジェクトとゴールのナビゲーションの 90% とモバイル操作命令の 71% において、オープン語彙の指示対象を空間的に接地し、制約を満たす計画を合成することができました。
https://robotlimp.github.io で補足ビデオをご覧ください。

要約(オリジナル)

Enabling robots to follow complex natural language instructions is an important yet challenging problem. People want to flexibly express constraints, refer to arbitrary landmarks and verify behavior when instructing robots. Conversely, robots must disambiguate human instructions into specifications and ground instruction referents in the real world. We propose Language Instruction grounding for Motion Planning (LIMP), a system that leverages foundation models and temporal logics to generate instruction-conditioned semantic maps that enable robots to verifiably follow expressive and long-horizon instructions with open vocabulary referents and complex spatiotemporal constraints. In contrast to prior methods for using foundation models in robot task execution, LIMP constructs an explainable instruction representation that reveals the robot’s alignment with an instructor’s intended motives and affords the synthesis of robot behaviors that are correct-by-construction. We demonstrate LIMP in three real-world environments, across a set of 35 complex spatiotemporal instructions, showing the generality of our approach and the ease of deployment in novel unstructured domains. In our experiments, LIMP can spatially ground open-vocabulary referents and synthesize constraint-satisfying plans in 90% of object-goal navigation and 71% of mobile manipulation instructions. See supplementary videos at https://robotlimp.github.io

arxiv情報

著者 Benedict Quartey,Eric Rosen,Stefanie Tellex,George Konidaris
発行日 2024-02-18 08:05:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク