要約
オブジェクトのまばらなビューが与えられた場合、そのカメラのポーズを推定することは、長年にわたる解決困難な問題です。
視点 (ゼロから 1 から 3) に条件付けされた新しいビューの事前トレーニングされた拡散モデルを利用します。
2 つの入力画像が与えられた場合に相対姿勢を推定するために、ノイズ除去拡散プロセスを逆にする ID-Pose を提案します。
ID-Pose は、一方の画像にノイズを追加し、もう一方の画像に条件付けされたノイズとポーズの決定変数を予測します。
予測誤差は、勾配降下法で最適な姿勢を見つける目的として使用されます。
ID-Pose は 3 つ以上の画像を処理し、三角関係から複数の画像ペアのそれぞれのポーズを推定できます。
ID-Pose はトレーニングを必要とせず、現実世界の画像に一般化されます。
私たちは高品質の実際にスキャンした 3D オブジェクトを使用して実験を行っており、ID-Pose は最先端の方法を大幅に上回っています。
要約(オリジナル)
Given sparse views of an object, estimating their camera poses is a long-standing and intractable problem. We harness the pre-trained diffusion model of novel views conditioned on viewpoints (Zero-1-to-3). We present ID-Pose which inverses the denoising diffusion process to estimate the relative pose given two input images. ID-Pose adds a noise on one image, and predicts the noise conditioned on the other image and a decision variable for the pose. The prediction error is used as the objective to find the optimal pose with the gradient descent method. ID-Pose can handle more than two images and estimate each of the poses with multiple image pairs from triangular relationships. ID-Pose requires no training and generalizes to real-world images. We conduct experiments using high-quality real-scanned 3D objects, where ID-Pose significantly outperforms state-of-the-art methods.
arxiv情報
著者 | Weihao Cheng,Yan-Pei Cao,Ying Shan |
発行日 | 2023-06-29 17:41:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google