要約
我々は、身体化されたロボットエージェントのための「道案内命令」を自動的に合成する新しいアプローチを提案する。
特定のシミュレーション プラットフォーム専用に設計された人間によるアノテーション付きデータセットに大きく依存する従来のアプローチとは対照的に、私たちのアルゴリズムは、コンテキスト学習を使用して、わずか数個の参照を使用して命令を生成するように LLM を条件付けします。
LLM ベースの Visual Question Answering 戦略を使用して、LLM が命令合成に使用する環境に関する詳細情報を収集します。
当社では、Matterport3D、AI Habitat、ThreeDWorld などの複数のシミュレーション プラットフォームにアプローチを実装し、プラットフォームに依存しない性質を実証しています。
ユーザー調査を通じて私たちのアプローチを主観的に評価したところ、83.3% のユーザーが、合成された命令が環境の詳細を正確に捉えており、人間が生成した命令と同様の特性を示していると感じていることがわかりました。
さらに、生成された命令を使用して REVERIE データセットに対して複数のアプローチでゼロショット ナビゲーションを実行し、標準的な成功指標のベースラインとの非常に密接な相関関係 (SR の変化が 1% 未満) を観察し、人間の代わりに生成された命令の実行可能性を定量化しました。
-注釈付きデータ。
最後に、具体化されたナビゲーション ポリシーの一般化可能な評価を可能にするアプローチの適用可能性について説明します。
私たちの知る限り、私たちのアプローチは、トレーニングなしでプラットフォームに依存しない方法で「人間のような」命令を生成できる最初の LLM 主導のアプローチです。
要約(オリジナル)
We present a novel approach to automatically synthesize ‘wayfinding instructions’ for an embodied robot agent. In contrast to prior approaches that are heavily reliant on human-annotated datasets designed exclusively for specific simulation platforms, our algorithm uses in-context learning to condition an LLM to generate instructions using just a few references. Using an LLM-based Visual Question Answering strategy, we gather detailed information about the environment which is used by the LLM for instruction synthesis. We implement our approach on multiple simulation platforms including Matterport3D, AI Habitat and ThreeDWorld, thereby demonstrating its platform-agnostic nature. We subjectively evaluate our approach via a user study and observe that 83.3% of users find the synthesized instructions accurately capture the details of the environment and show characteristics similar to those of human-generated instructions. Further, we conduct zero-shot navigation with multiple approaches on the REVERIE dataset using the generated instructions, and observe very close correlation with the baseline on standard success metrics (< 1% change in SR), quantifying the viability of generated instructions in replacing human-annotated data. We finally discuss the applicability of our approach in enabling a generalizable evaluation of embodied navigation policies. To the best of our knowledge, ours is the first LLM-driven approach capable of generating 'human-like' instructions in a platform-agnostic manner, without training.
arxiv情報
| 著者 | Vishnu Sashank Dorbala,Sanjoy Chowdhury,Dinesh Manocha | 
| 発行日 | 2024-04-02 04:27:55+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
