SCENES: Subpixel Correspondence Estimation With Epipolar Supervision

要約

シーンの 2 つ以上のビューから点の対応関係を抽出することは、コンピュータ ビジョンの基本的な問題であり、相対的なカメラの姿勢推定と動きからの構造にとって特に重要です。
既存の局所特徴マッチング アプローチは、大規模なデータセットでの対応監視でトレーニングされ、テスト セットで高精度のマッチングを取得します。
ただし、従来の特徴抽出プログラムとは異なり、トレーニングに使用されたデータセットとは異なる特性を持つ新しいデータセットに対してはうまく一般化できません。
代わりに、グラウンドトゥルースの対応またはグラウンドトゥルースのカメラのポーズと 3D 構造が利用可能であることを前提とした微調整が必​​要です。
深度マップや点群などの 3D 構造の要件を削除し、オドメトリから取得できるカメラの姿勢情報のみを必要とすることで、この仮定を緩和します。
これは、対応損失をエピポーラ損失に置き換えることによって行います。これにより、推定上の一致が関連するエピポーラ ライン上に存在することが促進されます。
対応監視よりも弱いとはいえ、この手がかりは新しいデータに基づいて既存のモデルを微調整するのに十分であることがわかります。
次に、新しいブートストラップ アプローチで姿勢推定を使用することで、既知のカメラの姿勢の仮定をさらに緩和します。
私たちは屋内ドローン データセットや屋外スマートフォン カメラ データセットなどの非常に困難なデータセットを評価し、強力な監督なしで最先端の結果を取得します。

要約(オリジナル)

Extracting point correspondences from two or more views of a scene is a fundamental computer vision problem with particular importance for relative camera pose estimation and structure-from-motion. Existing local feature matching approaches, trained with correspondence supervision on large-scale datasets, obtain highly-accurate matches on the test sets. However, they do not generalise well to new datasets with different characteristics to those they were trained on, unlike classic feature extractors. Instead, they require finetuning, which assumes that ground-truth correspondences or ground-truth camera poses and 3D structure are available. We relax this assumption by removing the requirement of 3D structure, e.g., depth maps or point clouds, and only require camera pose information, which can be obtained from odometry. We do so by replacing correspondence losses with epipolar losses, which encourage putative matches to lie on the associated epipolar line. While weaker than correspondence supervision, we observe that this cue is sufficient for finetuning existing models on new data. We then further relax the assumption of known camera poses by using pose estimates in a novel bootstrapping approach. We evaluate on highly challenging datasets, including an indoor drone dataset and an outdoor smartphone camera dataset, and obtain state-of-the-art results without strong supervision.

arxiv情報

著者 Dominik A. Kloepfer,João F. Henriques,Dylan Campbell
発行日 2024-01-19 18:57:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク