Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement

要約

視覚的ローカライゼーション技術は、ローカライゼーションを行うための基礎となるシーン表現に依存します。
これらの表現は、3D SFM マップなどの明示的な表現もあれば、シーンのエンコードを学習するニューラル ネットワークなどの暗黙的な表現も可能です。
前者では、シーン表現を構築するためにスパース特徴抽出器とマッチャーが必要です。
後者は、幾何学的な根拠に欠けており、シーンの 3D 構造を十分に捉えていない可能性があります。
この論文では、出力が同じ計量空間に埋め込まれている 3D 高密度特徴フィールドおよび 2D 特徴抽出器とともにシーン表現を共同で学習することを提案します。
対照的なフレームワークを通じて、この体積フィールドを画像ベースの抽出器と調整し、後者を学習した表面情報からのランキング損失で正規化します。
ボリューム レンダリングを通じて暗黙的フィールドを使用してシーンの基礎となるジオメトリを学習し、暗黙的フィールドにエンコードされた中間幾何学的情報を活用するようにフィーチャ フィールドを設計します。
結果として得られる特徴は、豊富なエンコード情報を維持しながら、識別力があり、視点の変更に対して堅牢です。
次に、画像ベースの特徴とレンダリングされた体積特徴を位置合わせすることによって、視覚的な位置特定が実現されます。
現実世界のシーンに対するアプローチの有効性を示し、ローカリゼーションに暗黙的なシーン表現を活用する以前の作業と同時の作業よりも、私たちのアプローチが優れていることを示しています。

要約(オリジナル)

Visual localization techniques rely upon some underlying scene representation to localize against. These representations can be explicit such as 3D SFM map or implicit, such as a neural network that learns to encode the scene. The former requires sparse feature extractors and matchers to build the scene representation. The latter might lack geometric grounding not capturing the 3D structure of the scene well enough. This paper proposes to jointly learn the scene representation along with a 3D dense feature field and a 2D feature extractor whose outputs are embedded in the same metric space. Through a contrastive framework we align this volumetric field with the image-based extractor and regularize the latter with a ranking loss from learned surface information. We learn the underlying geometry of the scene with an implicit field through volumetric rendering and design our feature field to leverage intermediate geometric information encoded in the implicit field. The resulting features are discriminative and robust to viewpoint change while maintaining rich encoded information. Visual localization is then achieved by aligning the image-based features and the rendered volumetric features. We show the effectiveness of our approach on real-world scenes, demonstrating that our approach outperforms prior and concurrent work on leveraging implicit scene representations for localization.

arxiv情報

著者 Maxime Pietrantoni,Gabriela Csurka,Martin Humenberger,Torsten Sattler
発行日 2024-06-12 17:51:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク