Can LLMs Generate Human-Like Wayfinding Instructions? Towards Platform-Agnostic Embodied Instruction Synthesis

要約

我々は、身体化されたロボットエージェントのための「道案内命令」を自動的に合成する新しいアプローチを提案する。
特定のシミュレーション プラットフォーム専用に設計された人間によるアノテーション付きデータセットに大きく依存する従来のアプローチとは対照的に、私たちのアルゴリズムは、コンテキスト学習を使用して、わずか数個の参照を使用して命令を生成するように LLM を条件付けします。
LLM ベースの Visual Question Answering 戦略を使用して、LLM が命令合成に使用する環境に関する詳細情報を収集します。
当社では、Matterport3D、AI Habitat、ThreeDWorld などの複数のシミュレーション プラットフォームにアプローチを実装し、プラットフォームに依存しない性質を実証しています。
ユーザー調査を通じて私たちのアプローチを主観的に評価したところ、83.3% のユーザーが、合成された命令が環境の詳細を正確に捉えており、人間が生成した命令と同様の特性を示していると感じていることがわかりました。
さらに、生成された命令を使用して REVERIE データセットに対して複数のアプローチでゼロショット ナビゲーションを実行し、標準的な成功指標のベースラインとの非常に密接な相関関係 (SR の変化が 1% 未満) を観察し、人間の代わりに生成された命令の実行可能性を定量化しました。
-注釈付きデータ。
私たちの知る限り、私たちのアプローチは、いかなるトレーニングも必要とせず、プラットフォームに依存しない方法で「人間のような」命令を生成できる、最初の LLM 主導のアプローチです。

要約(オリジナル)

We present a novel approach to automatically synthesize ‘wayfinding instructions’ for an embodied robot agent. In contrast to prior approaches that are heavily reliant on human-annotated datasets designed exclusively for specific simulation platforms, our algorithm uses in-context learning to condition an LLM to generate instructions using just a few references. Using an LLM-based Visual Question Answering strategy, we gather detailed information about the environment which is used by the LLM for instruction synthesis. We implement our approach on multiple simulation platforms including Matterport3D, AI Habitat and ThreeDWorld, thereby demonstrating its platform-agnostic nature. We subjectively evaluate our approach via a user study and observe that 83.3% of users find the synthesized instructions accurately capture the details of the environment and show characteristics similar to those of human-generated instructions. Further, we conduct zero-shot navigation with multiple approaches on the REVERIE dataset using the generated instructions, and observe very close correlation with the baseline on standard success metrics (< 1% change in SR), quantifying the viability of generated instructions in replacing human-annotated data. To the best of our knowledge, ours is the first LLM-driven approach capable of generating 'human-like' instructions in a platform-agnostic manner, without requiring any form of training.

arxiv情報

著者 Vishnu Sashank Dorbala,Sanjoy Chowdhury,Dinesh Manocha
発行日 2024-03-18 05:38:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク