Multimodal Large Language Model for Visual Navigation

要約

大規模な言語モデルを使用して視覚的なナビゲーションを可能にする最近の取り組みは、主に複雑なプロンプト システムの開発に焦点を当てています。
これらのシステムは、指示、観察、履歴を大量のテキスト プロンプトに組み込み、事前にトレーニングされた大規模な言語モデルと組み合わせて、視覚的なナビゲーションを容易にします。
対照的に、私たちのアプローチは、大規模なプロンプトエンジニアリングを行わずに、視覚的なナビゲーションのために大規模な言語モデルを微調整することを目的としています。
私たちの設計には、単純なテキスト プロンプト、現在の観測、および以前の観測からの情報を入力として収集する履歴コレクター モデルが含まれています。
出力として、私たちの設計は、ナビゲーション中にエージェントが実行できるアクションの確率分布を提供します。
人間によるデモンストレーションと、Habitat-Matterport 3D データセット (HM3D) からの衝突信号を使用してモデルをトレーニングします。
実験結果は、私たちの方法が最先端の動作複製方法よりも優れており、衝突率を効果的に低減できることを示しています。

要約(オリジナル)

Recent efforts to enable visual navigation using large language models have mainly focused on developing complex prompt systems. These systems incorporate instructions, observations, and history into massive text prompts, which are then combined with pre-trained large language models to facilitate visual navigation. In contrast, our approach aims to fine-tune large language models for visual navigation without extensive prompt engineering. Our design involves a simple text prompt, current observations, and a history collector model that gathers information from previous observations as input. For output, our design provides a probability distribution of possible actions that the agent can take during navigation. We train our model using human demonstrations and collision signals from the Habitat-Matterport 3D Dataset (HM3D). Experimental results demonstrate that our method outperforms state-of-the-art behavior cloning methods and effectively reduces collision rates.

arxiv情報

著者 Yao-Hung Hubert Tsai,Vansh Dhar,Jialu Li,Bowen Zhang,Jian Zhang
発行日 2023-10-12 19:01:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク