BEVBert: Multimodal Map Pre-training for Language-guided Navigation

要約

視覚-言語ナビゲーション(VLN)課題において、大規模な事前学習が有望な結果を示している。しかし、既存の事前学習手法のほとんどは、視覚とテキストの関連付けを学習するために離散的なパノラマを採用している。このため、モデルはパノラマ内の不完全で重複した観察を暗黙的に関連付ける必要があり、エージェントの空間理解を損なう可能性がある。そこで我々は、VLNで使用するための、空間を意識した新しいマップベースの事前学習パラダイムを提案する。具体的には、グローバルなトポロジカルマップでナビゲーション依存性をモデル化しながら、不完全な観測を明示的に集約し、重複を除去するローカルメトリックマップを構築する。このハイブリッド設計は、短期推論と長期計画の両方に対するVLNの要求をバランスさせることができる。次に、ハイブリッドマップに基づき、マルチモーダルなマップ表現を学習するための事前学習フレームワークを考案し、これにより空間認識クロスモーダル推論を強化し、言語誘導ナビゲーションの目標を促進する。広範な実験により、VLNのための地図ベースの事前学習ルートの有効性が実証され、提案手法は4つのVLNベンチマークにおいて最先端を達成した。

要約(オリジナル)

Large-scale pre-training has shown promising results on the vision-and-language navigation (VLN) task. However, most existing pre-training methods employ discrete panoramas to learn visual-textual associations. This requires the model to implicitly correlate incomplete, duplicate observations within the panoramas, which may impair an agent’s spatial understanding. Thus, we propose a new map-based pre-training paradigm that is spatial-aware for use in VLN. Concretely, we build a local metric map to explicitly aggregate incomplete observations and remove duplicates, while modeling navigation dependency in a global topological map. This hybrid design can balance the demand of VLN for both short-term reasoning and long-term planning. Then, based on the hybrid map, we devise a pre-training framework to learn a multimodal map representation, which enhances spatial-aware cross-modal reasoning thereby facilitating the language-guided navigation goal. Extensive experiments demonstrate the effectiveness of the map-based pre-training route for VLN, and the proposed method achieves state-of-the-art on four VLN benchmarks.

arxiv情報

著者 Dong An,Yuankai Qi,Yangguang Li,Yan Huang,Liang Wang,Tieniu Tan,Jing Shao
発行日 2023-08-03 09:39:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO パーマリンク