Stairway to Success: Zero-Shot Floor-Aware Object-Goal Navigation via LLM-Driven Coarse-to-Fine Exploration

要約

オブジェクトゴールナビゲーション(OGN)は、現実世界の複数床環境およびオープンボキャブラリーオブジェクトの説明の下で依然として挑戦的です。
HM3DやMP3Dなどの広く使用されているベンチマークのほとんどのエピソードには、複数床の建物が含まれており、多くのエピソードが明示的な床遷移を必要としています。
ただし、既存の方法は、多くの場合、単一階の設定または事前定義されたオブジェクトカテゴリに限定されます。
これらの制限に対処するために、2つの重要な課題に取り組みます。(1)効率的なクロスレベルの計画と(2)エージェントが事前の露出なしに新しいオブジェクトの説明を解釈する必要があるゼロショットオブジェクトゴールナビゲーション(ZS-ogn)。
Ascentを提案します。これは、階層的なセマンティックマッピング用の多階空間抽象モジュールと、新しいオブジェクトセマンティクスまたは機関車データに関する追加のトレーニングを必要とせずに、コンテキスト対応の探索用の大規模な言語モデル(LLMS)を活用する粗からファインのフロンティア推論モジュールを組み合わせたものです。
私たちの方法は、効率的なマルチフロアナビゲーションを有効にしながら、HM3DおよびMP3Dベンチマークで最先端のZS-GONGアプローチよりも優れています。
さらに、象限のロボットでの現実世界の展開を通じてその実用性を検証し、目に見えない床でオブジェクトの探索を成功させます。

要約(オリジナル)

Object-Goal Navigation (OGN) remains challenging in real-world, multi-floor environments and under open-vocabulary object descriptions. We observe that most episodes in widely used benchmarks such as HM3D and MP3D involve multi-floor buildings, with many requiring explicit floor transitions. However, existing methods are often limited to single-floor settings or predefined object categories. To address these limitations, we tackle two key challenges: (1) efficient cross-level planning and (2) zero-shot object-goal navigation (ZS-OGN), where agents must interpret novel object descriptions without prior exposure. We propose ASCENT, a framework that combines a Multi-Floor Spatial Abstraction module for hierarchical semantic mapping and a Coarse-to-Fine Frontier Reasoning module leveraging Large Language Models (LLMs) for context-aware exploration, without requiring additional training on new object semantics or locomotion data. Our method outperforms state-of-the-art ZS-OGN approaches on HM3D and MP3D benchmarks while enabling efficient multi-floor navigation. We further validate its practicality through real-world deployment on a quadruped robot, achieving successful object exploration across unseen floors.

arxiv情報

著者 Zeying Gong,Rong Li,Tianshuai Hu,Ronghe Qiu,Lingdong Kong,Lingfeng Zhang,Yiyi Ding,Leying Zhang,Junwei Liang
発行日 2025-05-29 03:00:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク