RSRNav: Reasoning Spatial Relationship for Image-Goal Navigation

要約

最近の画像ゴールナビゲーション(ImagENAV)メソッドは、目標とエゴセントリック画像のセマンティック機能を個別にキャプチャして、ポリシーネットワークに渡すことにより、知覚アクションポリシーを学習します。
ただし、課題は残っています。(1)セマンティック機能は、正確な方向情報を提供できず、余分なアクションにつながることが多く、(2)トレーニングとアプリケーションの間に視点の矛盾が生じるとパフォーマンスが大幅に低下します。
これらの課題に対処するために、RSRNAVを提案します。RSRNAVは、目標と現在の観測との間の空間的な関係をナビゲーションガイダンスとして推論するシンプルで効果的な方法です。
具体的には、目標と現在の観測との間に相関関係を構築することにより、空間関係をモデル化し、アクション予測のためにポリシーネットワークに渡されます。
これらの相関は、より正確なナビゲーションのために、きめ細かい相互相関と方向対応相関を使用して徐々に洗練されています。
3つのベンチマークデータセットでのRSRNAVの広範な評価は、特に「ユーザーがマッチした目標」設定で優れたナビゲーションパフォーマンスを示し、実際のアプリケーションの可能性を強調しています。

要約(オリジナル)

Recent image-goal navigation (ImageNav) methods learn a perception-action policy by separately capturing semantic features of the goal and egocentric images, then passing them to a policy network. However, challenges remain: (1) Semantic features often fail to provide accurate directional information, leading to superfluous actions, and (2) performance drops significantly when viewpoint inconsistencies arise between training and application. To address these challenges, we propose RSRNav, a simple yet effective method that reasons spatial relationships between the goal and current observations as navigation guidance. Specifically, we model the spatial relationship by constructing correlations between the goal and current observations, which are then passed to the policy network for action prediction. These correlations are progressively refined using fine-grained cross-correlation and direction-aware correlation for more precise navigation. Extensive evaluation of RSRNav on three benchmark datasets demonstrates superior navigation performance, particularly in the ‘user-matched goal’ setting, highlighting its potential for real-world applications.

arxiv情報

著者 Zheng Qin,Le Wang,Yabing Wang,Sanping Zhou,Gang Hua,Wei Tang
発行日 2025-04-25 00:22:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク