Optimized View and Geometry Distillation from Multi-view Diffuser

要約

画像条件付き拡散モデルを使用して単一の入力ビューからマルチビュー画像を生成することは最近の進歩であり、かなりの可能性を示しています。
ただし、合成ビューの一貫性の欠如や抽出されたジオメトリの過剰なスムージングなどの問題は依然として残ります。
従来の方法では、マルチビュー一貫性モジュールを統合したり、追加の監視を課してビューの一貫性を高めたりする一方で、カメラの位置決めの柔軟性が損なわれ、ビュー合成の多用途​​性が制限されていました。
この研究では、以前の研究で使用されたボリュームとレイの集約と比較して、ジオメトリ抽出中に最適化された放射輝度フィールドを、より厳密な一貫性として考慮します。
さらに、マルチビューディフューザーからのスコア蒸留を通じて、従来の放射フィールド最適化プロセスにおける重大なバイアスを特定し、修正します。
2D 拡散モデルからの無条件ノイズを利用する不偏スコア蒸留 (USD) を導入し、放射フィールドの忠実度を大幅に向上させます。
私たちは、最適化された放射輝度フィールドからレンダリングされたビューをベースとして活用し、オブジェクト固有のノイズ除去と高品質のマルチビュー画像の生成に優れた 2D 拡散モデルの 2 段階の特殊化プロセスを開発します。
最後に、洗練されたマルチビュー画像から忠実なジオメトリとテクスチャを直接復元します。
経験的評価により、当社の最適化されたジオメトリとビュー蒸留技術は、カメラ位置の自由度を維持しながら、広範なデータセットでトレーニングされた最先端のモデルと同等の結果を生成することが実証されています。
https://youjiazhang.github.io/USD/ のプロジェクト ページをご覧ください。

要約(オリジナル)

Generating multi-view images from a single input view using image-conditioned diffusion models is a recent advancement and has shown considerable potential. However, issues such as the lack of consistency in synthesized views and over-smoothing in extracted geometry persist. Previous methods integrate multi-view consistency modules or impose additional supervisory to enhance view consistency while compromising on the flexibility of camera positioning and limiting the versatility of view synthesis. In this study, we consider the radiance field optimized during geometry extraction as a more rigid consistency prior, compared to volume and ray aggregation used in previous works. We further identify and rectify a critical bias in the traditional radiance field optimization process through score distillation from a multi-view diffuser. We introduce an Unbiased Score Distillation (USD) that utilizes unconditioned noises from a 2D diffusion model, greatly refining the radiance field fidelity. we leverage the rendered views from the optimized radiance field as the basis and develop a two-step specialization process of a 2D diffusion model, which is adept at conducting object-specific denoising and generating high-quality multi-view images. Finally, we recover faithful geometry and texture directly from the refined multi-view images. Empirical evaluations demonstrate that our optimized geometry and view distillation technique generates comparable results to the state-of-the-art models trained on extensive datasets, all while maintaining freedom in camera positioning. Please see our project page at https://youjiazhang.github.io/USD/.

arxiv情報

著者 Youjia Zhang,Junqing Yu,Zikai Song,Wei Yang
発行日 2023-12-17 14:50:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク