要約
3D オブジェクトのまばらなビューを考慮すると、そのカメラのポーズを推定することは、長年にわたる解決困難な問題です。
この目標に向けて、視点 (ゼロから 1 から 3) に条件付けされた新しいビューの事前トレーニング済み拡散モデルの利用を検討します。
2 つの入力画像が与えられた場合に相対姿勢を推定するために、ノイズ除去拡散プロセスを逆にする ID-Pose を提案します。
ID-Pose は、一方の画像にノイズを追加し、もう一方の画像に条件付けされたノイズと相対姿勢の仮説を予測します。
予測誤差は、勾配降下法で最適な姿勢を見つけるための最小化目標として使用されます。
ID-Pose を拡張して 3 つ以上の画像を処理し、三角関係から複数の画像ペアで各ポーズを推定します。
ID-Pose はトレーニングを必要とせず、オープンワールド画像に一般化します。
私たちは、何気なく撮影した写真や、ランダムな視点でレンダリングされた画像を使用して、広範な実験を行います。
結果は、ID-Pose が最先端の方法よりも大幅に優れていることを示しています。
要約(オリジナル)
Given sparse views of a 3D object, estimating their camera poses is a long-standing and intractable problem. Toward this goal, we consider harnessing the pre-trained diffusion model of novel views conditioned on viewpoints (Zero-1-to-3). We present ID-Pose which inverses the denoising diffusion process to estimate the relative pose given two input images. ID-Pose adds a noise to one image, and predicts the noise conditioned on the other image and a hypothesis of the relative pose. The prediction error is used as the minimization objective to find the optimal pose with the gradient descent method. We extend ID-Pose to handle more than two images and estimate each pose with multiple image pairs from triangular relations. ID-Pose requires no training and generalizes to open-world images. We conduct extensive experiments using casually captured photos and rendered images with random viewpoints. The results demonstrate that ID-Pose significantly outperforms state-of-the-art methods.
arxiv情報
著者 | Weihao Cheng,Yan-Pei Cao,Ying Shan |
発行日 | 2023-11-30 18:33:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google