GLACE: Global Local Accelerated Coordinate Encoding

要約

シーン座標回帰 (SCR) メソッドは、カメラの姿勢推定のために 2D-3D の一致を直接回帰する視覚的位置推定メソッドのファミリーです。
これらは小規模なシーンでは効果的ですが、大規模なシーンでは重大な課題に直面し、監視用のグラウンド トゥルース 3D 点群がないとさらに問題が増幅されます。
ここで、モデルは再投影制約のみに依存することができ、点を暗黙的に三角形分割する必要があります。
この課題は基本的なジレンマから生じています。ネットワークは、異なる視点や照明条件などでの同じランドマークの観察に対して不変である必要がありますが、同時に無関係ではあるが類似した観察を区別する必要があります。
後者は、大規模なシーンほど関連性が高く、深刻になります。
この研究では、ネットワークに相互可視性の概念を導入することで、この問題に取り組みます。
私たちは、事前トレーニングされたグローバル エンコーディングとローカル エンコーディングを統合し、単一の小規模ネットワークだけで SCR を大規模なシーンに拡張できるようにする GLACE を提案します。
具体的には、再投影制約を共可視性で暗黙的にグループ化し、自明な解への過剰適合を回避する新しい特徴拡散手法を提案します。
さらに、位置デコーダは、大規模シーンの出力位置をより効果的にパラメータ化します。
私たちの手法は、監視に 3D モデルや深度マップを使用せずに、マップ サイズの小さいモデルを使用して大規模なシーンで最先端の結果を達成します。
ケンブリッジのランドマークでは、単一モデルを使用して、最先端の SCR メソッド ACE のアンサンブル版である Poker よりも 17% 低い中央位置誤差を達成しました。
コードは https://github.com/cvg/glace で入手できます。

要約(オリジナル)

Scene coordinate regression (SCR) methods are a family of visual localization methods that directly regress 2D-3D matches for camera pose estimation. They are effective in small-scale scenes but face significant challenges in large-scale scenes that are further amplified in the absence of ground truth 3D point clouds for supervision. Here, the model can only rely on reprojection constraints and needs to implicitly triangulate the points. The challenges stem from a fundamental dilemma: The network has to be invariant to observations of the same landmark at different viewpoints and lighting conditions, etc., but at the same time discriminate unrelated but similar observations. The latter becomes more relevant and severe in larger scenes. In this work, we tackle this problem by introducing the concept of co-visibility to the network. We propose GLACE, which integrates pre-trained global and local encodings and enables SCR to scale to large scenes with only a single small-sized network. Specifically, we propose a novel feature diffusion technique that implicitly groups the reprojection constraints with co-visibility and avoids overfitting to trivial solutions. Additionally, our position decoder parameterizes the output positions for large-scale scenes more effectively. Without using 3D models or depth maps for supervision, our method achieves state-of-the-art results on large-scale scenes with a low-map-size model. On Cambridge landmarks, with a single model, we achieve 17% lower median position error than Poker, the ensemble variant of the state-of-the-art SCR method ACE. Code is available at: https://github.com/cvg/glace.

arxiv情報

著者 Fangjinhua Wang,Xudong Jiang,Silvano Galliani,Christoph Vogel,Marc Pollefeys
発行日 2024-06-06 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク