Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions

要約

視覚言語ナビゲーション (VLN) は、理解、認識、計画を含む幅広いスキルを必要とする具体的なタスクです。
このような多面的な課題に対して、以前の VLN 手法は 1 つのモデル自体の考え方に完全に依存して 1 ラウンド内で予測を行っていました。
しかし、既存のモデルは、最も先進的な大規模言語モデル GPT4 でさえ、単一ラウンドの自己思考によって複数のタスクを処理するのに依然として苦労しています。
この研究では、専門家協議会からインスピレーションを得て、新しいゼロショット VLN フレームワークを導入します。
このフレームワーク内では、独特の能力を持つ大規模なモデルがドメインの専門家として機能します。
私たちが提案するナビゲーション エージェントである DiscussNav は、各ステップで移動する前にこれらの専門家と積極的に話し合い、重要な情報を収集できます。
これらの議論では、指示の理解、環境の認識、完了の推定などの重要なナビゲーションのサブタスクがカバーされます。
包括的な実験を通じて、分野の専門家とのディスカッションが、指示に関連した情報を認識し、不注意によるエラーを修正し、一貫性のない動作の決定を選別することにより、ナビゲーションを効果的に促進できることを実証しました。
代表的な VLN タスク R2R のパフォーマンスは、私たちの手法がすべてのメトリックにおいて主要なゼロショット VLN モデルを大幅に上回っていることを示しています。
さらに、実際のロボット実験では、単一ラウンドの自己思考に比べて、私たちの方法の明らかな利点が示されています。

要約(オリジナル)

Visual language navigation (VLN) is an embodied task demanding a wide range of skills encompassing understanding, perception, and planning. For such a multifaceted challenge, previous VLN methods totally rely on one model’s own thinking to make predictions within one round. However, existing models, even the most advanced large language model GPT4, still struggle with dealing with multiple tasks by single-round self-thinking. In this work, drawing inspiration from the expert consultation meeting, we introduce a novel zero-shot VLN framework. Within this framework, large models possessing distinct abilities are served as domain experts. Our proposed navigation agent, namely DiscussNav, can actively discuss with these experts to collect essential information before moving at every step. These discussions cover critical navigation subtasks like instruction understanding, environment perception, and completion estimation. Through comprehensive experiments, we demonstrate that discussions with domain experts can effectively facilitate navigation by perceiving instruction-relevant information, correcting inadvertent errors, and sifting through in-consistent movement decisions. The performances on the representative VLN task R2R show that our method surpasses the leading zero-shot VLN model by a large margin on all metrics. Additionally, real-robot experiments display the obvious advantages of our method over single-round self-thinking.

arxiv情報

著者 Yuxing Long,Xiaoqi Li,Wenzhe Cai,Hao Dong
発行日 2023-09-20 15:04:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク