A Guide to Structureless Visual Localization

要約

視覚ローカリゼーションアルゴリズム、つまり、既知のシーンでクエリ画像のカメラポーズを推定する方法は、自動運転車や拡張 /混合現実システムなど、多くのアプリケーションのコアコンポーネントです。
最先端の視覚的ローカリゼーションアルゴリズムは構造ベースです。つまり、シーンの3Dモデルを保存し、カメラポーズ推定のためにモデルのクエリ画像と3Dポイントの間に2D-3D対応を使用します。
このようなアプローチは非常に正確ですが、シーンの変更後に基礎となる3Dモデルを調整することに関しては、かなり柔軟性があります。
構造のないローカリゼーションアプローチは、既知のポーズを持つ画像のデータベースとしてシーンを表し、したがって、画像を追加または削除することで簡単に更新できるはるかに柔軟な表現を提供します。
構造ベースのアプローチに関する文献は大量にありますが、構造のない方法に関する作業は大幅に少ないです。
したがって、この論文は、私たちの知る限り、最初の包括的な議論と構造のない方法の比較を提供することに専念しています。
広範な実験では、より高い程度の古典的な幾何学的推論を使用するアプローチは、一般により高いポーズ精度を達成することが示されています。
特に、古典的な絶対的または半一般化された相対ポーズ推定に基づくアプローチは、広いマージンによるポーズ回帰に基づく非常に最近の方法よりも優れています。
最先端の構造ベースのアプローチと比較して、構造のない方法の柔軟性は、(わずかに)低いポーズ精度を犠牲にして生まれ、将来の作業の興味深い方向を示しています。

要約(オリジナル)

Visual localization algorithms, i.e., methods that estimate the camera pose of a query image in a known scene, are core components of many applications, including self-driving cars and augmented / mixed reality systems. State-of-the-art visual localization algorithms are structure-based, i.e., they store a 3D model of the scene and use 2D-3D correspondences between the query image and 3D points in the model for camera pose estimation. While such approaches are highly accurate, they are also rather inflexible when it comes to adjusting the underlying 3D model after changes in the scene. Structureless localization approaches represent the scene as a database of images with known poses and thus offer a much more flexible representation that can be easily updated by adding or removing images. Although there is a large amount of literature on structure-based approaches, there is significantly less work on structureless methods. Hence, this paper is dedicated to providing the, to the best of our knowledge, first comprehensive discussion and comparison of structureless methods. Extensive experiments show that approaches that use a higher degree of classical geometric reasoning generally achieve higher pose accuracy. In particular, approaches based on classical absolute or semi-generalized relative pose estimation outperform very recent methods based on pose regression by a wide margin. Compared with state-of-the-art structure-based approaches, the flexibility of structureless methods comes at the cost of (slightly) lower pose accuracy, indicating an interesting direction for future work.

arxiv情報

著者 Vojtech Panek,Qunjie Zhou,Yaqing Ding,Sérgio Agostinho,Zuzana Kukelova,Torsten Sattler,Laura Leal-Taixé
発行日 2025-04-24 15:08:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2.10 パーマリンク