ID-Pose: Sparse-view Camera Pose Estimation by Inverting Diffusion Models

要約

オブジェクトのまばらなビューが与えられた場合、そのカメラのポーズを推定することは、長年にわたる解決困難な問題です。
視点 (ゼロから 1 から 3) に条件付けされた新しいビューの事前トレーニングされた拡散モデルを利用します。
2 つの入力画像が与えられた場合に相対姿勢を推定するために、ノイズ除去拡散プロセスを逆にする ID-Pose を提案します。
ID-Pose は、一方の画像にノイズを追加し、もう一方の画像に条件付けされたノイズとポーズの決定変数を予測します。
予測誤差は、勾配降下法で最適な姿勢を見つける目的として使用されます。
ID-Pose は 3 つ以上の画像を処理し、三角関係から複数の画像ペアのそれぞれのポーズを推定できます。
ID-Pose はトレーニングを必要とせず、現実世界の画像に一般化されます。
私たちは高品質の実際にスキャンした 3D オブジェクトを使用して実験を行っており、ID-Pose は最先端の方法を大幅に上回っています。

要約(オリジナル)

Given sparse views of an object, estimating their camera poses is a long-standing and intractable problem. We harness the pre-trained diffusion model of novel views conditioned on viewpoints (Zero-1-to-3). We present ID-Pose which inverses the denoising diffusion process to estimate the relative pose given two input images. ID-Pose adds a noise on one image, and predicts the noise conditioned on the other image and a decision variable for the pose. The prediction error is used as the objective to find the optimal pose with the gradient descent method. ID-Pose can handle more than two images and estimate each of the poses with multiple image pairs from triangular relationships. ID-Pose requires no training and generalizes to real-world images. We conduct experiments using high-quality real-scanned 3D objects, where ID-Pose significantly outperforms state-of-the-art methods.

arxiv情報

著者 Weihao Cheng,Yan-Pei Cao,Ying Shan
発行日 2023-06-29 17:41:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク