NavAgent: Multi-scale Urban Street View Fusion For UAV Embodied Vision-and-Language Navigation

要約

視覚と言語のナビゲーション (VLN) は、身体化されたインテリジェンスの研究方向として広く議論されており、身体化されたエージェントが自然言語コマンドを通じて複雑な視覚環境をナビゲートできるようにすることを目的としています。
既存の VLN 手法のほとんどは、屋内地上ロボットのシナリオに焦点を当てています。
ただし、都市の屋外シーンで UAV VLN に適用すると、2 つの重大な課題に直面します。
まず、都市のシーンには多数のオブジェクトが含まれているため、画像内のきめの細かいランドマークと、これらのランドマークの複雑なテキスト説明を一致させることが困難になります。
第 2 に、全体的な環境情報には複数のモーダル次元が含まれており、表現の多様性によりエンコード プロセスの複雑さが大幅に増加します。
これらの課題に対処するために、私たちは、大規模な視覚言語モデルによって駆動される初の都市型 UAV を組み込んだナビゲーション モデルである NavAgent を提案します。
NavAgent は、トポロジ マップ (グローバル)、パノラマ (中)、およびきめの細かいランドマーク (ローカル) を含むマルチスケールの環境情報を合成することにより、ナビゲーション タスクを実行します。
具体的には、GLIP を利用して、きめ細かいランドマークを識別して言語化できるランドマークの視覚認識装置を構築します。
その後、環境情報を統合し、グラフ畳み込みネットワークを使用して地球環境データをエンコードする、動的に成長するシーン トポロジ マップを開発します。
さらに、ランドマークの視覚認識機能をトレーニングするために、実際の都市のストリート シーン向けの最初のきめの細かいランドマーク データセットである NavAgent-Landmark2K を開発しました。
Touchdown および Map2seq データセットに対して行われた実験では、NavAgent は強力なベースライン モデルを上回りました。
コードとデータセットは、屋外 VLN の探索と開発を促進するためにコミュニティにリリースされます。

要約(オリジナル)

Vision-and-Language Navigation (VLN), as a widely discussed research direction in embodied intelligence, aims to enable embodied agents to navigate in complicated visual environments through natural language commands. Most existing VLN methods focus on indoor ground robot scenarios. However, when applied to UAV VLN in outdoor urban scenes, it faces two significant challenges. First, urban scenes contain numerous objects, which makes it challenging to match fine-grained landmarks in images with complex textual descriptions of these landmarks. Second, overall environmental information encompasses multiple modal dimensions, and the diversity of representations significantly increases the complexity of the encoding process. To address these challenges, we propose NavAgent, the first urban UAV embodied navigation model driven by a large Vision-Language Model. NavAgent undertakes navigation tasks by synthesizing multi-scale environmental information, including topological maps (global), panoramas (medium), and fine-grained landmarks (local). Specifically, we utilize GLIP to build a visual recognizer for landmark capable of identifying and linguisticizing fine-grained landmarks. Subsequently, we develop dynamically growing scene topology map that integrate environmental information and employ Graph Convolutional Networks to encode global environmental data. In addition, to train the visual recognizer for landmark, we develop NavAgent-Landmark2K, the first fine-grained landmark dataset for real urban street scenes. In experiments conducted on the Touchdown and Map2seq datasets, NavAgent outperforms strong baseline models. The code and dataset will be released to the community to facilitate the exploration and development of outdoor VLN.

arxiv情報

著者 Youzhi Liu,Fanglong Yao,Yuanchang Yue,Guangluan Xu,Xian Sun,Kun Fu
発行日 2024-11-13 12:51:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク