要約
なじみのない環境での適応ナビゲーションは、家庭用サービスロボットにとって重要ですが、低レベルのパス計画と高レベルのシーンの理解の両方が必要であるため、困難なままです。
最近のビジョン言語モデル(VLM)ベースのゼロショットアプローチは、以前のマップとシーン固有のトレーニングデータへの依存を減らしますが、それらは大きな制限に直面しています:離散観察からの時空の不連続性、非構造化されたメモリ表現、および航行障害につながるタスク理解が不十分です。
ヒトナビゲーション能力を模倣する腹側と背側の流れで構成される新しい認知インスパイアされたフレームワークである、ドラメモン(強化されたメモリ指向ナビゲーションを備えた分散型オントロジー対応の信頼できるエージェント)を提案します。
背面は、階層的なセマンティック空間融合とトポロジーマップを実装して、時空間的な不連続性を処理し、腹部ストリームはRAG-VLMとポリシーVLMを組み合わせて意思決定を改善します。
また、私たちのアプローチは、ナビゲーションの安全性と効率性を確保するために、NAV授業を開発しています。
HM3D、MP3D、およびGOATデータセットでDoraemonを評価します。このデータセットでは、成功率(SR)と成功の両方でパス長(SPL)メトリックで重み付けされ、既存の方法を大幅に上回ることができます。
また、ナビゲーションインテリジェンスをより良く評価するために、新しい評価メトリック(AORI)を紹介します。
包括的な実験では、以前のマップビルディングや事前トレーニングを必要とせずに、ゼロショット自律ナビゲーションにおけるドラリーモンの有効性が示されています。
要約(オリジナル)
Adaptive navigation in unfamiliar environments is crucial for household service robots but remains challenging due to the need for both low-level path planning and high-level scene understanding. While recent vision-language model (VLM) based zero-shot approaches reduce dependence on prior maps and scene-specific training data, they face significant limitations: spatiotemporal discontinuity from discrete observations, unstructured memory representations, and insufficient task understanding leading to navigation failures. We propose DORAEMON (Decentralized Ontology-aware Reliable Agent with Enhanced Memory Oriented Navigation), a novel cognitive-inspired framework consisting of Ventral and Dorsal Streams that mimics human navigation capabilities. The Dorsal Stream implements the Hierarchical Semantic-Spatial Fusion and Topology Map to handle spatiotemporal discontinuities, while the Ventral Stream combines RAG-VLM and Policy-VLM to improve decision-making. Our approach also develops Nav-Ensurance to ensure navigation safety and efficiency. We evaluate DORAEMON on the HM3D, MP3D, and GOAT datasets, where it achieves state-of-the-art performance on both success rate (SR) and success weighted by path length (SPL) metrics, significantly outperforming existing methods. We also introduce a new evaluation metric (AORI) to assess navigation intelligence better. Comprehensive experiments demonstrate DORAEMON’s effectiveness in zero-shot autonomous navigation without requiring prior map building or pre-training.
arxiv情報
著者 | Tianjun Gu,Linfeng Li,Xuhong Wang,Chenghua Gong,Jingyu Gong,Zhizhong Zhang,Yuan Xie,Lizhuang Ma,Xin Tan |
発行日 | 2025-05-29 09:43:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google