Long-Term Invariant Local Features via Implicit Cross-Domain Correspondences

要約

現代の学習ベースの視覚特徴抽出ネットワークは、領域内定位において良好な性能を発揮するが、季節や日中の異なる変動など、長期的な視覚領域の変動にまたがって画像ペアがキャプチャされた場合、その性能は著しく低下する。本論文では、視覚的ローカリゼーションにおける長期的変動の性能への影響を調べるためのベンチマークを提供する。様々な領域の変化に対する現在の最先端の特徴抽出ネットワークの性能の徹底的な分析を行い、領域内ローカリゼーションと領域横断ローカリゼーションの間に大きな性能のギャップがあることを発見する。我々は、最新の特徴抽出ネットワークのスーパービジョンを改善することにより、このギャップを埋めるための様々な方法を検討する。iCDCは同じ環境を複数のNeural Radiance Fieldsで表現し、それぞれが個々の視覚ドメインの下でシーンに適合する。iCDCは、異なる長期的な視覚条件にわたって正確な対応関係を生成するために、基礎となる3次元表現を利用する。我々の提案する手法は、クロスドメインローカリゼーションの性能を向上させ、性能ギャップを大幅に減少させる。一般的な長期ローカライゼーションベンチマークで評価したところ、我々の学習したネットワークは一貫して既存の手法を凌駕した。本研究は、長期的な配置のための、より頑健な視覚的ローカリゼーションパイプラインに向けた実質的な前進であり、長期不変記述子の開発における研究の道を開くものである。

要約(オリジナル)

Modern learning-based visual feature extraction networks perform well in intra-domain localization, however, their performance significantly declines when image pairs are captured across long-term visual domain variations, such as different seasonal and daytime variations. In this paper, our first contribution is a benchmark to investigate the performance impact of long-term variations on visual localization. We conduct a thorough analysis of the performance of current state-of-the-art feature extraction networks under various domain changes and find a significant performance gap between intra- and cross-domain localization. We investigate different methods to close this gap by improving the supervision of modern feature extractor networks. We propose a novel data-centric method, Implicit Cross-Domain Correspondences (iCDC). iCDC represents the same environment with multiple Neural Radiance Fields, each fitting the scene under individual visual domains. It utilizes the underlying 3D representations to generate accurate correspondences across different long-term visual conditions. Our proposed method enhances cross-domain localization performance, significantly reducing the performance gap. When evaluated on popular long-term localization benchmarks, our trained networks consistently outperform existing methods. This work serves as a substantial stride toward more robust visual localization pipelines for long-term deployments, and opens up research avenues in the development of long-term invariant descriptors.

arxiv情報

著者 Zador Pataki,Mohammad Altillawi,Menelaos Kanakis,Rémi Pautrat,Fengyi Shen,Ziyuan Liu,Luc Van Gool,Marc Pollefeys
発行日 2023-11-06 18:53:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク