Multimodal Large Language Model for Visual Navigation

要約

大規模言語モデルを用いて視覚的ナビゲーションを可能にする最近の取り組みは、主に複雑なプロンプトシステムの開発に焦点を当てている。これらのシステムは、指示、観察、履歴を膨大なテキストプロンプトに組み込み、それを事前に訓練された大規模言語モデルと組み合わせることで、ビジュアルナビゲーションを容易にしている。対照的に、我々のアプローチは、大規模なプロンプトエンジニアリングを行うことなく、視覚的ナビゲーションのために大規模な言語モデルを微調整することを目的としている。我々のデザインは、単純なテキストプロンプト、現在の観察、および入力として過去の観察から情報を収集する履歴コレクターモデルを含む。出力として、我々のデザインは、エージェントがナビゲーション中に取り得る行動の確率分布を提供する。我々は、Habitat-Matterport 3Dデータセット(HM3D)からの人間の実演と衝突信号を用いて我々のモデルを訓練する。実験結果は、我々の手法が最先端の行動クローニング手法を凌駕し、衝突率を効果的に減少させることを示している。

要約(オリジナル)

Recent efforts to enable visual navigation using large language models have mainly focused on developing complex prompt systems. These systems incorporate instructions, observations, and history into massive text prompts, which are then combined with pre-trained large language models to facilitate visual navigation. In contrast, our approach aims to fine-tune large language models for visual navigation without extensive prompt engineering. Our design involves a simple text prompt, current observations, and a history collector model that gathers information from previous observations as input. For output, our design provides a probability distribution of possible actions that the agent can take during navigation. We train our model using human demonstrations and collision signals from the Habitat-Matterport 3D Dataset (HM3D). Experimental results demonstrate that our method outperforms state-of-the-art behavior cloning methods and effectively reduces collision rates.

arxiv情報

著者 Yao-Hung Hubert Tsai,Vansh Dhar,Jialu Li,Bowen Zhang,Jian Zhang
発行日 2023-11-06 18:44:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク