要約
ゼロショット オブジェクト ナビゲーション (ZSON) タスクでは、身体化されたエージェントが不慣れな環境をナビゲートして、これまで見えなかったオブジェクトを見つける必要があります。
このような目標指向の探索は、環境の空間情報に基づいて知覚、理解、推論する能力に大きく依存しています。
しかし、現在の LLM ベースのアプローチは、視覚的な観察を言語の記述と言語空間における推論に変換するため、空間情報の損失につながります。
このペーパーでは、完全な空間情報を備えたトップビュー マップ上で直接推論を行う MLLM ベースの手法である TopV-Nav を紹介します。
トップビュー視点での MLLM の空間推論の可能性を完全に解き放つために、意味論的に豊富なトップビュー マップを適応的に構築する適応型ビジュアル プロンプト生成 (AVPG) 手法を提案します。
これにより、エージェントはトップビュー マップに含まれる空間情報を直接利用して、徹底的な推論を行うことができます。
さらに、上面図の地図を好みの縮尺で動的にズームする動的マップ スケーリング (DMS) メカニズムを設計し、局所的なきめの細かい推論を強化します。
さらに、ターゲットの位置を予測して利用するためのターゲット誘導ナビゲーション (TGN) メカニズムを考案し、地球規模で人間のような探索を容易にします。
MP3D および HM3D ベンチマークの実験では、TopV-Nav の優位性が実証されています (例: HM3D では $+3.9\%$ SR および $+2.0\%$ SPL の絶対的な向上)。
要約(オリジナル)
The Zero-Shot Object Navigation (ZSON) task requires embodied agents to find a previously unseen object by navigating in unfamiliar environments. Such a goal-oriented exploration heavily relies on the ability to perceive, understand, and reason based on the spatial information of the environment. However, current LLM-based approaches convert visual observations to language descriptions and reason in the linguistic space, leading to the loss of spatial information. In this paper, we introduce TopV-Nav, a MLLM-based method that directly reasons on the top-view map with complete spatial information. To fully unlock the MLLM’s spatial reasoning potential in top-view perspective, we propose the Adaptive Visual Prompt Generation (AVPG) method to adaptively construct semantically-rich top-view map. It enables the agent to directly utilize spatial information contained in the top-view map to conduct thorough reasoning. Besides, we design a Dynamic Map Scaling (DMS) mechanism to dynamically zoom top-view map at preferred scales, enhancing local fine-grained reasoning. Additionally, we devise a Target-Guided Navigation (TGN) mechanism to predict and to utilize target locations, facilitating global and human-like exploration. Experiments on MP3D and HM3D benchmarks demonstrate the superiority of our TopV-Nav, e.g., $+3.9\%$ SR and $+2.0\%$ SPL absolute improvements on HM3D.
arxiv情報
著者 | Linqing Zhong,Chen Gao,Zihan Ding,Yue Liao,Si Liu |
発行日 | 2024-11-25 14:27:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google