NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning

要約

視覚と言語のナビゲーション (VLN) は、身体化 AI の重要な研究課題であり、身体化されたエージェントが自然言語の指示に従って複雑な 3D 環境をナビゲートする必要があります。
最近の研究では、ナビゲーション推論の精度と解釈可能性を向上させることにより、VLN の大規模言語モデル (LLM) の有望な能力が明らかになりました。
ただし、オフラインでの主な使用は、通常、VLN タスクと LLM トレーニング コーパスの間の大幅なドメイン ギャップに悩まされます。
この論文では、NavCoT (Navigational Chain-of-Thought) と呼ばれる新しい戦略を紹介します。NavCoT では、パラメーター効率の高いドメイン内トレーニングを実行して、自己誘導型のナビゲーション決定を可能にし、コスト効率の高い方法でドメイン ギャップの大幅な緩和につながります。

具体的には、各タイムステップで、LLM は、1) 指示に従って次の観測を想像するための世界モデルとして機能し、2) 想像と最も一致する候補観測を選択することによって、ナビゲーションの思考連鎖を予測するように求められます。
、および 3) 前のステップの推論に基づいてアクションを決定します。
トレーニング用に形式化されたラベルを構築することにより、LLM は、アクションの決定を改善するための、望ましい合理的な思考連鎖の出力を生成する方法を学習できます。
さまざまなトレーニング設定と一般的な VLN ベンチマーク (例: ルームツールーム (R2R)、ルーム間 (RxR)、ルームフォールーム (R4R)) にわたる実験結果は、NavCoT が直接アクションよりも大幅に優れていることを示しています。
予測のバリエーション。
シンプルなパラメーター効率の高い微調整により、当社の NavCoT は、R2R データセットで相対的に最大 7% 向上し、最近の GPT4 ベースのアプローチを上回ります。
私たちは、NavCoT が、現実世界のロボット工学アプリケーションの開発に役立つ、よりタスク適応性とスケーラブルな LLM ベースの組み込みエージェントのロックを解除するのに役立つと信じています。
コードは https://github.com/expectorlin/NavCoT で入手できます。

要約(オリジナル)

Vision-and-Language Navigation (VLN), as a crucial research problem of Embodied AI, requires an embodied agent to navigate through complex 3D environments following natural language instructions. Recent research has highlighted the promising capacity of large language models (LLMs) in VLN by improving navigational reasoning accuracy and interpretability. However, their predominant use in an offline manner usually suffers from substantial domain gap between the VLN task and the LLM training corpus. This paper introduces a novel strategy called Navigational Chain-of-Thought (NavCoT), where we fulfill parameter-efficient in-domain training to enable self-guided navigational decision, leading to a significant mitigation of the domain gap in a cost-effective manner. Specifically, at each timestep, the LLM is prompted to forecast the navigational chain-of-thought by: 1) acting as a world model to imagine the next observation according to the instruction, 2) selecting the candidate observation that best aligns with the imagination, and 3) determining the action based on the reasoning from the prior steps. Through constructing formalized labels for training, the LLM can learn to generate desired and reasonable chain-of-thought outputs for improving the action decision. Experimental results across various training settings and popular VLN benchmarks (e.g., Room-to-Room (R2R), Room-across-Room (RxR), Room-for-Room (R4R)) show the significant superiority of NavCoT over the direct action prediction variants. Through simple parameter-efficient finetuning, our NavCoT outperforms a recent GPT4-based approach with ~7% relative improvement on the R2R dataset. We believe that NavCoT will help unlock more task-adaptive and scalable LLM-based embodied agents, which are helpful for developing real-world robotics applications. Code is available at https://github.com/expectorlin/NavCoT.

arxiv情報

著者 Bingqian Lin,Yunshuang Nie,Ziming Wei,Jiaqi Chen,Shikui Ma,Jianhua Han,Hang Xu,Xiaojun Chang,Xiaodan Liang
発行日 2024-03-12 07:27:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク