To Glue or Not to Glue? Classical vs Learned Image Matching for Mobile Mapping Cameras to Textured Semantic 3D Building Models

要約

機能マッチングは、画像登録、モーションからの構造、視覚的ローカリゼーションなど、多くのコンピュータービジョンおよび写真測量アプリケーションに必要なステップです。
SIFTの特徴の検出と説明などの古典的な手作りの方法と、最近傍マッチングとRansacの外れ値除去と組み合わせたメソッドは、モバイルマッピングカメラの最先端です。
深い学習の最近の進歩により、学習可能な方法が導入され、複雑な条件下でより良い堅牢性とパフォーマンスがあることが証明されています。
採用の拡大にもかかわらず、セマンティック3Dビルディングカメラからモデルへのマッチングの特定のタスクのためのクラシックと学習可能な機能マッチング方法の包括的な比較はまだありません。
この提出物は、テクスチャのCityGML LOD2モデルを使用した視覚的ローカリゼーションにおけるさまざまな機能マッチング手法の有効性を体系的に評価します。
標準のベンチマークデータセット(HPATCHES、MEGADEPTH-1500)と、ファサードテクスチャと対応するカメラ画像(陸生およびドローン)で構成されるカスタムデータセットを使用します。
後者については、幾何学的な地上真理が地理参照された軌道データから導出された幾何学的なグラウンド・トゥルースを使用して、Perspective-n-point(PNP)アルゴリズムを使用して推定される絶対ポーズの達成可能な精度を評価します。
結果は、学習可能な機能マッチング方法が、ゼロから12のランサックインリア、および曲線下のゼロから0.16の面積を備えた挑戦的なカスタムデータセットの精度と堅牢性に関する従来のアプローチを大きく上回ることを示しています。
この作業は、モデルベースの視覚的ローカリゼーション方法の開発を促進すると考えています。
コードへのリンク:https://github.com/simbauer/to\_glue\_or\_not\_to\_glue

要約(オリジナル)

Feature matching is a necessary step for many computer vision and photogrammetry applications such as image registration, structure-from-motion, and visual localization. Classical handcrafted methods such as SIFT feature detection and description combined with nearest neighbour matching and RANSAC outlier removal have been state-of-the-art for mobile mapping cameras. With recent advances in deep learning, learnable methods have been introduced and proven to have better robustness and performance under complex conditions. Despite their growing adoption, a comprehensive comparison between classical and learnable feature matching methods for the specific task of semantic 3D building camera-to-model matching is still missing. This submission systematically evaluates the effectiveness of different feature-matching techniques in visual localization using textured CityGML LoD2 models. We use standard benchmark datasets (HPatches, MegaDepth-1500) and custom datasets consisting of facade textures and corresponding camera images (terrestrial and drone). For the latter, we evaluate the achievable accuracy of the absolute pose estimated using a Perspective-n-Point (PnP) algorithm, with geometric ground truth derived from geo-referenced trajectory data. The results indicate that the learnable feature matching methods vastly outperform traditional approaches regarding accuracy and robustness on our challenging custom datasets with zero to 12 RANSAC-inliers and zero to 0.16 area under the curve. We believe that this work will foster the development of model-based visual localization methods. Link to the code: https://github.com/simBauer/To\_Glue\_or\_not\_to\_Glue

arxiv情報

著者 Simone Gaisbauer,Prabin Gyawali,Qilin Zhang,Olaf Wysocki,Boris Jutzi
発行日 2025-05-23 14:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク