要約
カメラの姿勢推定はコンピューター ビジョンに関する長年の問題であり、これまでは手作りのキーポイント マッチング、RANSAC、バンドル調整などの古典的な手法に依存することがよくありました。
この論文では、確率的拡散フレームワーク内で Structure from Motion (SfM) 問題を定式化し、入力画像が与えられたカメラ ポーズの条件付き分布をモデル化することを提案します。
古い問題に対するこの斬新な視点には、いくつかの利点があります。
(i) 拡散フレームワークの性質は、バンドル調整の反復手順を反映しています。
(ii) この定式化により、エピポーラ幾何学からの幾何学的制約のシームレスな統合が可能になります。
(iii) 広いベースラインを持つまばらなビューなど、一般的に困難なシナリオで優れています。
(iv) この方法は、任意の量の画像の内部関数と外部関数を予測できます。
私たちの手法 PoseDiffusion が、古典的な SfM パイプラインと 2 つの現実世界のデータセットに対する学習されたアプローチよりも大幅に改善されていることを示します。
最後に、私たちの方法はさらなるトレーニングなしでデータセット全体で一般化できることが観察されます。
プロジェクトページ:https://posediffusion.github.io/
要約(オリジナル)
Camera pose estimation is a long-standing computer vision problem that to date often relies on classical methods, such as handcrafted keypoint matching, RANSAC and bundle adjustment. In this paper, we propose to formulate the Structure from Motion (SfM) problem inside a probabilistic diffusion framework, modelling the conditional distribution of camera poses given input images. This novel view of an old problem has several advantages. (i) The nature of the diffusion framework mirrors the iterative procedure of bundle adjustment. (ii) The formulation allows a seamless integration of geometric constraints from epipolar geometry. (iii) It excels in typically difficult scenarios such as sparse views with wide baselines. (iv) The method can predict intrinsics and extrinsics for an arbitrary amount of images. We demonstrate that our method PoseDiffusion significantly improves over the classic SfM pipelines and the learned approaches on two real-world datasets. Finally, it is observed that our method can generalize across datasets without further training. Project page: https://posediffusion.github.io/
arxiv情報
著者 | Jianyuan Wang,Christian Rupprecht,David Novotny |
発行日 | 2023-06-27 17:59:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google