Relative Pose Estimation through Affine Corrections of Monocular Depth Priors

要約

単眼深度推定(MDE)モデルは、近年、大きな進歩を遂げています。
多くのMDEモデルは、単眼画像からアフィン不変の相対深さを予測することを目指していますが、最近の大規模トレーニングとビジョンファンデーションモデルの開発により、メートル法(絶対)深さの合理的な推定が可能になります。
ただし、幾何学的視力課題、特に相対的なポーズ推定のこれらの予測を効果的に活用することは、比較的調査中であり続けています。
深さは、クロスビューイメージのアライメントに豊富な制約を提供しますが、単眼の深さのプライアーからの固有のノイズと曖昧さは、古典的なキーポイントベースのソリューションを改善するための実用的な課題を提示します。
このホワイトペーパーでは、比較的独立したアフィン(スケールとシフト)のあいまいさを明示的に説明する相対的なポーズ推定のために3つのソルバーを開発し、較正された条件と非調整条件の両方をカバーしています。
さらに、提案されたソルバーと古典的なポイントベースのソルバーとエピポーラの制約を組み合わせたハイブリッド推定パイプラインを提案します。
アフィン補正モデリングは、相対的な深さのプライアーだけでなく、驚くべきことに「メトリック」のものにも有益であることがわかります。
複数のデータセットにわたる結果は、キャリブレーションされたセットアップと非調整セットアップの両方で、古典的なキーポイントベースのベースラインとPNPベースのソリューションに対するアプローチの大幅な改善を示しています。
また、この方法は、さまざまな機能マッチャーやMDEモデルで一貫して改善され、両方のモジュールのごく最近の進歩からさらに利益を得ることができることも示しています。
コードはhttps://github.com/markyu98/madposeで入手できます。

要約(オリジナル)

Monocular depth estimation (MDE) models have undergone significant advancements over recent years. Many MDE models aim to predict affine-invariant relative depth from monocular images, while recent developments in large-scale training and vision foundation models enable reasonable estimation of metric (absolute) depth. However, effectively leveraging these predictions for geometric vision tasks, in particular relative pose estimation, remains relatively under explored. While depths provide rich constraints for cross-view image alignment, the intrinsic noise and ambiguity from the monocular depth priors present practical challenges to improving upon classic keypoint-based solutions. In this paper, we develop three solvers for relative pose estimation that explicitly account for independent affine (scale and shift) ambiguities, covering both calibrated and uncalibrated conditions. We further propose a hybrid estimation pipeline that combines our proposed solvers with classic point-based solvers and epipolar constraints. We find that the affine correction modeling is beneficial to not only the relative depth priors but also, surprisingly, the ‘metric’ ones. Results across multiple datasets demonstrate large improvements of our approach over classic keypoint-based baselines and PnP-based solutions, under both calibrated and uncalibrated setups. We also show that our method improves consistently with different feature matchers and MDE models, and can further benefit from very recent advances on both modules. Code is available at https://github.com/MarkYu98/madpose.

arxiv情報

著者 Yifan Yu,Shaohui Liu,Rémi Pautrat,Marc Pollefeys,Viktor Larsson
発行日 2025-03-24 17:14:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク