Multi-Floor Zero-Shot Object Navigation Policy


これらの課題に対処するために、私たちはまずマルチフロア ナビゲーション ポリシー (MFNP) を提案し、それをゼロショット オブジェクト ナビゲーション タスクに実装します。
私たちのフレームワークは 3 つの主要なコンポーネントで構成されています。(i) マルチフロア ナビゲーション ポリシー。エージェントが複数のフロアを探索できるようにします。
(ii) ナビゲーション プロセスにおける推論のためのマルチモーダル大規模言語モデル (MLLM)。
(iii) 効率的なフロア移動を保証するフロア間ナビゲーション。
Habitat-Matterport 3D (HM3D) および Matterport 3D (MP3D) データセットで MFNP を評価します。どちらにもマルチフロア シーンが含まれます。
私たちの実験結果は、MFNP がゼロショット オブジェクト ナビゲーションにおける既存のすべての方法を大幅に上回り、より高い成功率と探索効率の向上を達成することを示しています。
MFNP を導入すると、Unitree 四足ロボットは複数階のナビゲーションに成功し、まったく見えない環境で目標物体を発見しました。
MFNP を導入することで、オブジェクト ナビゲーション タスクで複雑なマルチフロア環境に取り組むための新しいパラダイムを提供し、現実的なマルチフロア環境における視覚ベースのナビゲーションの将来の研究への道を開きます。


Object navigation in multi-floor environments presents a formidable challenge in robotics, requiring sophisticated spatial reasoning and adaptive exploration strategies. Traditional approaches have primarily focused on single-floor scenarios, overlooking the complexities introduced by multi-floor structures. To address these challenges, we first propose a Multi-floor Navigation Policy (MFNP) and implement it in Zero-Shot object navigation tasks. Our framework comprises three key components: (i) Multi-floor Navigation Policy, which enables an agent to explore across multiple floors; (ii) Multi-modal Large Language Models (MLLMs) for reasoning in the navigation process; and (iii) Inter-Floor Navigation, ensuring efficient floor transitions. We evaluate MFNP on the Habitat-Matterport 3D (HM3D) and Matterport 3D (MP3D) datasets, both include multi-floor scenes. Our experiment results demonstrate that MFNP significantly outperforms all the existing methods in Zero-Shot object navigation, achieving higher success rates and improved exploration efficiency. Ablation studies further highlight the effectiveness of each component in addressing the unique challenges of multi-floor navigation. Meanwhile, we conducted real-world experiments to evaluate the feasibility of our policy. Upon deployment of MFNP, the Unitree quadruped robot demonstrated successful multi-floor navigation and found the target object in a completely unseen environment. By introducing MFNP, we offer a new paradigm for tackling complex, multi-floor environments in object navigation tasks, opening avenues for future research in visual-based navigation in realistic, multi-floor settings.


著者 Lingfeng Zhang,Hao Wang,Erjia Xiao,Xinyao Zhang,Qiang Zhang,Zixuan Jiang,Renjing Xu
発行日 2024-09-17 05:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.RO パーマリンク