Improved Scene Landmark Detection for Camera Localization

要約

検索、局所特徴マッチング、および 3D 構造ベースの姿勢推定に基づくカメラ位置特定方法は正確ですが、大量のストレージを必要とし、時間がかかり、プライバシーが保護されません。
最近、これらの制限に対処するために、シーン ランドマーク検出 (SLD) に基づく方法が提案されました。
これには、畳み込みニューラル ネットワーク (CNN) をトレーニングして、事前に決定されたいくつかの顕著なシーン固有の 3D ポイントまたはランドマークを検出し、関連する 2D-3D 対応関係からカメラのポーズを計算することが含まれます。
SLD は既存の学習ベースのアプローチよりも優れた性能を発揮しましたが、3D 構造ベースの手法よりも精度が著しく劣りました。
この論文では、精度のギャップがトレーニング中の不十分なモデル容量とノイズの多いラベルによるものであることを示します。
容量の問題を軽減するために、ランドマークをサブグループに分割し、サブグループごとに個別のネットワークをトレーニングすることを提案します。
より適切なトレーニング ラベルを生成するために、高密度再構成を使用してシーンのランドマークの可視性を推定することを提案します。
最後に、メモリ効率を向上させるためのコンパクトなアーキテクチャを紹介します。
精度の点では、私たちのアプローチは INDOOR-6 データセットを使用した最先端の構造ベースの手法と同等ですが、実行速度が大幅に速く、ストレージの使用量も少なくなります。
コードとモデルは https://github.com/microsoft/SceneLandmarkLocalization で見つけることができます。

要約(オリジナル)

Camera localization methods based on retrieval, local feature matching, and 3D structure-based pose estimation are accurate but require high storage, are slow, and are not privacy-preserving. A method based on scene landmark detection (SLD) was recently proposed to address these limitations. It involves training a convolutional neural network (CNN) to detect a few predetermined, salient, scene-specific 3D points or landmarks and computing camera pose from the associated 2D-3D correspondences. Although SLD outperformed existing learning-based approaches, it was notably less accurate than 3D structure-based methods. In this paper, we show that the accuracy gap was due to insufficient model capacity and noisy labels during training. To mitigate the capacity issue, we propose to split the landmarks into subgroups and train a separate network for each subgroup. To generate better training labels, we propose using dense reconstructions to estimate visibility of scene landmarks. Finally, we present a compact architecture to improve memory efficiency. Accuracy wise, our approach is on par with state of the art structure based methods on the INDOOR-6 dataset but runs significantly faster and uses less storage. Code and models can be found at https://github.com/microsoft/SceneLandmarkLocalization.

arxiv情報

著者 Tien Do,Sudipta N. Sinha
発行日 2024-01-31 18:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク