An Efficient Scene Coordinate Encoding and Relocalization Method


シーン座標回帰 (SCR) は、ディープ ニューラル ネットワーク (DNN) を利用して、カメラの姿勢推定の 2D-3D 対応を直接回帰する視覚的位置推定手法です。
ただし、現在の SCR 手法は、暗黙的な三角形分割に依存しているため、反復的なテクスチャや無意味な領域を処理する際に課題に直面することがよくあります。
既存の SCR 手法と比較して、シーンのエンコードと顕著なキーポイントの検出の両方に統合されたアーキテクチャを設計することで、システムが情報領域のエンコードに集中できるようになり、効率が大幅に向上します。
屋内と屋外のデータセットにわたって行われた包括的な実験により、提案されたシステムが他の最先端 (SOTA) SCR 手法よりも優れていることが実証されました。
シングルフレーム再局在化モードにより、ベースラインの再現率が 6.4% 向上し、実行速度が 56 Hz から 90 Hz に増加しました。
さらに、シーケンスベースのモードでは、元の効率を維持しながら再現率が 11% 増加します。


Scene Coordinate Regression (SCR) is a visual localization technique that utilizes deep neural networks (DNN) to directly regress 2D-3D correspondences for camera pose estimation. However, current SCR methods often face challenges in handling repetitive textures and meaningless areas due to their reliance on implicit triangulation. In this paper, we propose an efficient scene coordinate encoding and relocalization method. Compared with the existing SCR methods, we design a unified architecture for both scene encoding and salient keypoint detection, enabling our system to focus on encoding informative regions, thereby significantly enhancing efficiency. Additionally, we introduce a mechanism that leverages sequential information during both map encoding and relocalization, which strengthens implicit triangulation, particularly in repetitive texture environments. Comprehensive experiments conducted across indoor and outdoor datasets demonstrate that the proposed system outperforms other state-of-the-art (SOTA) SCR methods. Our single-frame relocalization mode improves the recall rate of our baseline by 6.4% and increases the running speed from 56Hz to 90Hz. Furthermore, our sequence-based mode increases the recall rate by 11% while maintaining the original efficiency.


著者 Kuan Xu,Zeyu Jiang,Haozhi Cao,Shenghai Yuan,Chen Wang,Lihua Xie
発行日 2024-12-09 13:39:18+00:00
arxivサイト arxiv_id(pdf)

