GeoNav: Empowering MLLMs with Explicit Geospatial Reasoning Abilities for Language-Goal Aerial Navigation

要約

言語ゴール航空ナビゲーションは、具体化されたAIにおける重大な課題であり、UAVがテキスト仕様に基づいて都市ブロックなどの複雑な環境でターゲットをローカライズすることを要求します。
多くの場合、屋内ナビゲーションから適合した既存の方法は、視野が限られているため、オブジェクト間の意味的な曖昧さ、構造化された空間推論の欠如により、拡大するのに苦労します。
この作業では、長距離ナビゲーションを有効にするための地理空間的に認識されているマルチモーダルエージェントであるGeonavを提案します。
Geonavは、3つのフェーズランドマークナビゲーション、ターゲット検索、および正確なローカリゼーションを模倣して、人間の粗からファインまでの空間戦略を模倣しています。
このような推論をサポートするために、2つの異なるタイプの空間メモリを動的に構築します。
1つ目は、以前のテキストの地理的知識を融合させ、視覚的な手がかりを具体化し、ランドマーク地域への高速ナビゲーションのためにトップダウンの注釈付き形式に融合したグローバルであるが概略的な認知マップです。
2つ目は、明確なターゲットローカリゼーションに使用されるブロック、ランドマーク、およびオブジェクト間の階層的な空間的関係を表すローカルで繊細なシーングラフです。
この構造化された表現に加えて、Geonavは、段階全体で効率的で解釈可能な意思決定を備えたマルチモーダルの大手言語モデルを可能にするために、空間的に認識されたマルチモーダルチェーンのプロンプトメカニズムを採用しています。
CityNav Urban Navigation Benchmarkでは、Geonavは、成功率が最大12.53%の現在の最先端を上回り、ハードレベルのタスクであってもナビゲーション効率を大幅に向上させます。
アブレーション研究は、各モジュールの重要性を強調し、地理空間表現と粗から洗練された推論がUAVナビゲーションを強化する方法を紹介します。

要約(オリジナル)

Language-goal aerial navigation is a critical challenge in embodied AI, requiring UAVs to localize targets in complex environments such as urban blocks based on textual specification. Existing methods, often adapted from indoor navigation, struggle to scale due to limited field of view, semantic ambiguity among objects, and lack of structured spatial reasoning. In this work, we propose GeoNav, a geospatially aware multimodal agent to enable long-range navigation. GeoNav operates in three phases-landmark navigation, target search, and precise localization-mimicking human coarse-to-fine spatial strategies. To support such reasoning, it dynamically builds two different types of spatial memory. The first is a global but schematic cognitive map, which fuses prior textual geographic knowledge and embodied visual cues into a top-down, annotated form for fast navigation to the landmark region. The second is a local but delicate scene graph representing hierarchical spatial relationships between blocks, landmarks, and objects, which is used for definite target localization. On top of this structured representation, GeoNav employs a spatially aware, multimodal chain-of-thought prompting mechanism to enable multimodal large language models with efficient and interpretable decision-making across stages. On the CityNav urban navigation benchmark, GeoNav surpasses the current state-of-the-art by up to 12.53% in success rate and significantly improves navigation efficiency, even in hard-level tasks. Ablation studies highlight the importance of each module, showcasing how geospatial representations and coarse-to-fine reasoning enhance UAV navigation.

arxiv情報

著者 Haotian Xu,Yue Hu,Chen Gao,Zhengqiu Zhu,Yong Zhao,Yong Li,Quanjun Yin
発行日 2025-04-21 10:45:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク