P3Nav: A Unified Framework for Embodied Navigation Integrating Perception, Planning, and Prediction

要約

言語誘導ビジュアルナビゲーションでは、エージェントは自然言語の指示を使用して、目に見えない環境でターゲットオブジェクトを見つけます。
なじみのないシーンでの信頼できるナビゲーションのために、エージェントは強力な認識、計画、および予測機能を持っている必要があります。
さらに、エージェントが長期航行中に以前に調査した領域を再検討した場合、それらは無関係で冗長な歴史的認識を保持し、最適ではない結果につながる可能性があります。
この作業では、\ textbf {p} erception、\ textbf {p} lanning、および\ textbf {p}のrediction機能を統合する統合された統合フレームワークである\ textbf {p3nav}を紹介します。
さらに、P3NAVは\ TextBF {Adaptive 3D-Aware History Sampling}戦略を採用して、歴史的観察を効果的かつ効率的に利用します。
大規模な言語モデル(LLM)を活用することにより、P3NAVは多様なコマンドと複雑な視覚シーンを理解し、適切なナビゲーションアクションをもたらします。
P3NAVは、$ \ mathrm {chores} $ – $ \ mathbb {s} $ベンチマークでオブジェクトゴールナビゲーションで75 \%の成功率を達成し、新しい最先端のパフォーマンスを設定します。

要約(オリジナル)

In language-guided visual navigation, agents locate target objects in unseen environments using natural language instructions. For reliable navigation in unfamiliar scenes, agents must possess strong perception, planning, and prediction capabilities. Additionally, when agents revisit previously explored areas during long-term navigation, they may retain irrelevant and redundant historical perceptions, leading to suboptimal results. In this work, we introduce \textbf{P3Nav}, a unified framework that integrates \textbf{P}erception, \textbf{P}lanning, and \textbf{P}rediction capabilities through \textbf{Multitask Collaboration} on navigation and embodied question answering (EQA) tasks, thereby enhancing navigation performance. Furthermore, P3Nav employs an \textbf{Adaptive 3D-aware History Sampling} strategy to effectively and efficiently utilize historical observations. By leveraging the large language models (LLM), P3Nav comprehends diverse commands and complex visual scenes, resulting in appropriate navigation actions. P3Nav achieves a 75\% success rate in object goal navigation on the $\mathrm{CHORES}$-$\mathbb{S}$ benchmark, setting a new state-of-the-art performance.

arxiv情報

著者 Yufeng Zhong,Chengjian Feng,Feng Yan,Fanfan Liu,Liming Zheng,Lin Ma
発行日 2025-03-24 10:29:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク