End-to-End Navigation with Vision Language Models: Transforming Spatial Reasoning into Question-Answering

要約

ビジョン言語モデル (VLM) をエンドツーエンドのナビゲーション ポリシーに変換するための具体化されたフレームワークである VLMnav を紹介します。
これまでの研究とは対照的に、私たちは知覚、計画、制御の分離に依存していません。
代わりに、VLM を使用して 1 ステップでアクションを直接選択します。
驚くべきことに、VLM はエンドツーエンドのポリシーのゼロショットとして、つまり微調整やナビゲーション データへの露出を必要とせずに使用できることがわかりました。
これにより、私たちのアプローチは制限がなく、下流のナビゲーション タスクに一般化できるようになります。
当社では、ベースラインのプロンプト手法と比較して、当社のアプローチのパフォーマンスを評価するために広範な調査を実施しています。
さらに、最も影響力のある設計上の決定を理解するために設計分析を実行します。
私たちのプロジェクトのビジュアルな例とコードは、https://jirl-upenn.github.io/VLMnav/ にあります。

要約(オリジナル)

We present VLMnav, an embodied framework to transform a Vision-Language Model (VLM) into an end-to-end navigation policy. In contrast to prior work, we do not rely on a separation between perception, planning, and control; instead, we use a VLM to directly select actions in one step. Surprisingly, we find that a VLM can be used as an end-to-end policy zero-shot, i.e., without any fine-tuning or exposure to navigation data. This makes our approach open-ended and generalizable to any downstream navigation task. We run an extensive study to evaluate the performance of our approach in comparison to baseline prompting methods. In addition, we perform a design analysis to understand the most impactful design decisions. Visual examples and code for our project can be found at https://jirl-upenn.github.io/VLMnav/

arxiv情報

著者 Dylan Goetting,Himanshu Gaurav Singh,Antonio Loquercio
発行日 2024-11-08 18:16:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク