要約
Instance Image-Goal Navigation(IIN)では、任意の視点からキャプチャされた参照画像に描かれたターゲットオブジェクトまたは場所を識別してナビゲートする自律エージェントが必要です。
最近の方法は、3次元ガウススプラッティング(3DG)などの強力な新規ビューシンセシス(NVS)技術を活用していますが、通常、識別的な視覚キューの包括的なカバレッジを確保するために、複数の視点または軌跡をランダムにサンプリングすることに依存しています。
ただし、このアプローチは、画像サンプルが重複することにより大きな冗長性を生み出し、原則的なビュー選択が欠けており、レンダリングと比較の両方のオーバーヘッドの両方を大幅に増加させます。
このペーパーでは、ターゲットマッチングの最適な視点を推定する階層スコアリングパラダイムを備えた新しいIINフレームワークを紹介します。
私たちのアプローチは、クロスレベルのセマンティックスコアリングを統合し、クリップ由来の関連フィールドを利用して、ターゲットオブジェクトクラスと高いセマンティックな類似性を持つ領域を識別し、有望な地域内で正確なポーズ推定を実行する微粒局所幾何学的スコアリングを実行します。
広範な評価は、私たちの方法がシミュレートされたiinベンチマークと現実世界の適用性で最先端のパフォーマンスを達成することを示しています。
要約(オリジナル)
Instance Image-Goal Navigation (IIN) requires autonomous agents to identify and navigate to a target object or location depicted in a reference image captured from any viewpoint. While recent methods leverage powerful novel view synthesis (NVS) techniques, such as three-dimensional Gaussian splatting (3DGS), they typically rely on randomly sampling multiple viewpoints or trajectories to ensure comprehensive coverage of discriminative visual cues. This approach, however, creates significant redundancy through overlapping image samples and lacks principled view selection, substantially increasing both rendering and comparison overhead. In this paper, we introduce a novel IIN framework with a hierarchical scoring paradigm that estimates optimal viewpoints for target matching. Our approach integrates cross-level semantic scoring, utilizing CLIP-derived relevancy fields to identify regions with high semantic similarity to the target object class, with fine-grained local geometric scoring that performs precise pose estimation within promising regions. Extensive evaluations demonstrate that our method achieves state-of-the-art performance on simulated IIN benchmarks and real-world applicability.
arxiv情報
著者 | Yijie Deng,Shuaihang Yuan,Geeta Chandra Raju Bethala,Anthony Tzes,Yu-Shen Liu,Yi Fang |
発行日 | 2025-06-09 00:58:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google