シーン座標回帰(SCR)を用いた学習ベースの視覚的定位法は、マップサイズを小さくできるという利点がある。しかし、複雑な照度変化や画像レベルの曖昧性を持つデータセットでは、特徴マッチング法に比べてロバスト性に劣る。本研究はこのギャップを埋めることを目的とする。我々は、共視性グラフに基づく大域的な符号化学習とデータ増強戦略を、暗黙的な三角測量を容易にするための深度調整再投影損失とともに導入する。さらに、ネットワークアーキテクチャと局所特徴抽出モジュールを再検討する。本手法は、ネットワークアンサンブルや3D監視に依存することなく、困難な大規模データセットにおいて最先端を達成した。Aachen Day-Nightにおいて、我々は、類似のマップサイズで以前のSCR手法より10$times$高精度であり、他のSCR手法より少なくとも5$times$小さいマップサイズで優れた精度を実現する。コードは https://github.com/cvg/scrstudio で入手可能。
Learning-based visual localization methods that use scene coordinate regression (SCR) offer the advantage of smaller map sizes. However, on datasets with complex illumination changes or image-level ambiguities, it remains a less robust alternative to feature matching methods. This work aims to close the gap. We introduce a covisibility graph-based global encoding learning and data augmentation strategy, along with a depth-adjusted reprojection loss to facilitate implicit triangulation. Additionally, we revisit the network architecture and local feature extraction module. Our method achieves state-of-the-art on challenging large-scale datasets without relying on network ensembles or 3D supervision. On Aachen Day-Night, we are 10$\times$ more accurate than previous SCR methods with similar map sizes and require at least 5$\times$ smaller map sizes than any other SCR method while still delivering superior accuracy. Code will be available at: https://github.com/cvg/scrstudio .
著者 | Xudong Jiang,Fangjinhua Wang,Silvano Galliani,Christoph Vogel,Marc Pollefeys |
発行日 | 2025-01-02 18:59:08+00:00 |
arxivサイト | arxiv_id(pdf) |