要約
単眼深度推定 (MDE) モデルは、近年大幅な進歩を遂げてきました。
多くの MDE モデルは、単眼画像からアフィン不変の相対深度を予測することを目的としていますが、大規模なトレーニングおよび視覚基盤モデルの最近の開発により、メトリック (絶対) 深度の合理的な推定が可能になりました。
しかし、これらの予測を幾何学的視覚タスク、特に相対姿勢推定に効果的に活用することは、まだ比較的研究が進んでいません。
深度はビュー間の画像の位置合わせに豊富な制約を提供しますが、単眼の深度事前分布に起因する固有のノイズと曖昧さにより、古典的なキーポイントベースのソリューションを改善するには実際的な課題が生じます。
この論文では、キャリブレーション済みと未キャリブレーションの両方の条件をカバーする、独立したアフィン (スケールとシフト) の曖昧さを明示的に考慮した相対姿勢推定用の 3 つのソルバーを開発します。
さらに、提案したソルバーと古典的なポイントベースのソルバーおよびエピポーラ制約を組み合わせたハイブリッド推定パイプラインを提案します。
アフィン補正モデリングは相対深度事前分布だけでなく、驚くべきことに「計量」事前分布にも有益であることがわかりました。
複数のデータセットにわたる結果は、キャリブレーションされたセットアップとキャリブレーションされていないセットアップの両方で、従来のキーポイント ベースのベースラインや PnP ベースのソリューションに比べて、アプローチが大幅に改善されたことを示しています。
また、私たちの手法がさまざまな特徴マッチャーと MDE モデルで一貫して改善され、両方のモジュールの最近の進歩からさらに恩恵を受けることができることも示します。
コードは https://github.com/MarkYu98/madpose で入手できます。
要約(オリジナル)
Monocular depth estimation (MDE) models have undergone significant advancements over recent years. Many MDE models aim to predict affine-invariant relative depth from monocular images, while recent developments in large-scale training and vision foundation models enable reasonable estimation of metric (absolute) depth. However, effectively leveraging these predictions for geometric vision tasks, in particular relative pose estimation, remains relatively under explored. While depths provide rich constraints for cross-view image alignment, the intrinsic noise and ambiguity from the monocular depth priors present practical challenges to improving upon classic keypoint-based solutions. In this paper, we develop three solvers for relative pose estimation that explicitly account for independent affine (scale and shift) ambiguities, covering both calibrated and uncalibrated conditions. We further propose a hybrid estimation pipeline that combines our proposed solvers with classic point-based solvers and epipolar constraints. We find that the affine correction modeling is beneficial to not only the relative depth priors but also, surprisingly, the “metric’ ones. Results across multiple datasets demonstrate large improvements of our approach over classic keypoint-based baselines and PnP-based solutions, under both calibrated and uncalibrated setups. We also show that our method improves consistently with different feature matchers and MDE models, and can further benefit from very recent advances on both modules. Code is available at https://github.com/MarkYu98/madpose.
arxiv情報
著者 | Yifan Yu,Shaohui Liu,Rémi Pautrat,Marc Pollefeys,Viktor Larsson |
発行日 | 2025-01-09 18:58:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google