要約
大規模言語モデル (LLM) の目覚ましい進歩を利用して、ロボット ナビゲーションに続く指示に LLM を利用する取り組みが急成長しています。
このような傾向は、LLM がナビゲーション推論と多様な言語理解を一般化する可能性を強調しています。
ただし、視覚と言語のナビゲーション (VLN) タスクに LLM を統合すると、以前の下流のスペシャリスト モデルと比較して、エージェントのパフォーマンスに大きな差異が観察されます。
さらに、エージェントとの対話におけるコミュニケーションを解釈し促進する言語本来の能力は、これらの統合では十分に活用されていないことがよくあります。
この研究では、言語ナビゲーション推論を生成する際の LLM の解釈能力を維持しながら、VLN に特化したモデルと LLM ベースのナビゲーション パラダイムの間の溝を埋めるよう努めています。
凍結された LLM 内のビジュアル コンテンツを調整することで、LLM の視覚的観察理解を網羅し、効果的なアクション予測とナビゲーション推論のために LLM とナビゲーション ポリシー ネットワークを組み込む方法を活用します。
私たちは、提案された方法のデータ効率を実証し、LM ベースのエージェントと最先端の VLN スペシャリストとの間のギャップを解消します。
要約(オリジナル)
Capitalizing on the remarkable advancements in Large Language Models (LLMs), there is a burgeoning initiative to harness LLMs for instruction following robotic navigation. Such a trend underscores the potential of LLMs to generalize navigational reasoning and diverse language understanding. However, a significant discrepancy in agent performance is observed when integrating LLMs in the Vision-and-Language navigation (VLN) tasks compared to previous downstream specialist models. Furthermore, the inherent capacity of language to interpret and facilitate communication in agent interactions is often underutilized in these integrations. In this work, we strive to bridge the divide between VLN-specialized models and LLM-based navigation paradigms, while maintaining the interpretative prowess of LLMs in generating linguistic navigational reasoning. By aligning visual content in a frozen LLM, we encompass visual observation comprehension for LLMs and exploit a way to incorporate LLMs and navigation policy networks for effective action predictions and navigational reasoning. We demonstrate the data efficiency of the proposed methods and eliminate the gap between LM-based agents and state-of-the-art VLN specialists.
arxiv情報
著者 | Gengze Zhou,Yicong Hong,Zun Wang,Xin Eric Wang,Qi Wu |
発行日 | 2024-07-17 07:44:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google