要約
私たちは、未知のカメラポーズを持つ 2 つのビューのみを必要とする新しい 3D オブジェクト再構築フレームワークである iFusion を紹介します。
シングルビュー再構成では視覚的に魅力的な結果が得られますが、特に目に見えない側では、実際のオブジェクトから大幅に逸脱する可能性があります。
ビューを追加すると、再構成の忠実度が向上しますが、既知のカメラのポーズが必要になります。
ただし、ポーズの利用可能性を仮定すると非現実的であり、既存のポーズ推定器はスパース ビュー シナリオでは失敗します。
これに対処するために、さまざまなオブジェクトの形状と外観に関する暗黙の知識を埋め込む、事前トレーニング済みの新しいビュー合成拡散モデルを利用します。
私たちの戦略は 3 つのステップで展開されます。 (1) 新しいビューを合成する代わりに、カメラの姿勢推定のために拡散モデルを反転します。
(2) 拡散モデルは、提供されたビューと推定されたポーズを使用して微調整され、ターゲット オブジェクトに合わせた新しいビュー シンセサイザーに変換されます。
(3) 登録されたビューと微調整された拡散モデルを活用して、3D オブジェクトを再構成します。
実験では、姿勢推定と新しいビュー合成の両方で優れたパフォーマンスを示しました。
さらに、iFusion はさまざまな再構築手法とシームレスに統合し、それらを強化します。
要約(オリジナル)
We present iFusion, a novel 3D object reconstruction framework that requires only two views with unknown camera poses. While single-view reconstruction yields visually appealing results, it can deviate significantly from the actual object, especially on unseen sides. Additional views improve reconstruction fidelity but necessitate known camera poses. However, assuming the availability of pose may be unrealistic, and existing pose estimators fail in sparse view scenarios. To address this, we harness a pre-trained novel view synthesis diffusion model, which embeds implicit knowledge about the geometry and appearance of diverse objects. Our strategy unfolds in three steps: (1) We invert the diffusion model for camera pose estimation instead of synthesizing novel views. (2) The diffusion model is fine-tuned using provided views and estimated poses, turned into a novel view synthesizer tailored for the target object. (3) Leveraging registered views and the fine-tuned diffusion model, we reconstruct the 3D object. Experiments demonstrate strong performance in both pose estimation and novel view synthesis. Moreover, iFusion seamlessly integrates with various reconstruction methods and enhances them.
arxiv情報
著者 | Chin-Hsuan Wu,Yen-Chun Chen,Bolivar Solarte,Lu Yuan,Min Sun |
発行日 | 2023-12-28 18:59:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google