DiffPortrait3D: Controllable Diffusion for Zero-Shot Portrait View Synthesis

要約

我々は、わずか 1 枚の野生のポートレートから 3D 一貫性のあるフォトリアリスティックな新しいビューを合成できる条件付き拡散モデルである DiffPortrait3D を紹介します。
具体的には、単一の RGB 入力が与えられた場合、アイデンティティと表情の両方を保持したまま、新しいカメラ ビューからレンダリングされた、もっともらしいが一貫した顔の詳細を合成することを目指しています。
時間のかかる最適化と微調整の代わりに、当社のゼロショット手法は、ポーズをとっていないカメラビュー、極端な表情、多様な芸術的描写を含む任意の顔ポートレートによく適用されます。
その中核として、大規模な画像データセットで事前トレーニングされた 2D 拡散モデルの事前生成をレンダリング バックボーンとして活用し、ノイズ除去は外観とカメラ ポーズのもつれを解きほぐした注意深い制御によって導かれます。
これを達成するために、まず、参照画像からの外観コンテキストを、凍結された UNets のセルフ アテンション レイヤーに注入します。
次に、レンダリング ビューは、同じビューから交差した被写体の条件画像を観察することでカメラのポーズを解釈する新しい条件付き制御モジュールで操作されます。
さらに、ビューの一貫性を強化するためにトレーニング可能なクロスビュー アテンション モジュールを挿入します。これは、推論中の新しい 3D 認識ノイズ生成プロセスによってさらに強化されます。
私たちは、挑戦的な現場ベンチマークおよびマルチビュー ベンチマークで、定性的および定量的の両方で最先端の結果を実証します。

要約(オリジナル)

We present DiffPortrait3D, a conditional diffusion model that is capable of synthesizing 3D-consistent photo-realistic novel views from as few as a single in-the-wild portrait. Specifically, given a single RGB input, we aim to synthesize plausible but consistent facial details rendered from novel camera views with retained both identity and facial expression. In lieu of time-consuming optimization and fine-tuning, our zero-shot method generalizes well to arbitrary face portraits with unposed camera views, extreme facial expressions, and diverse artistic depictions. At its core, we leverage the generative prior of 2D diffusion models pre-trained on large-scale image datasets as our rendering backbone, while the denoising is guided with disentangled attentive control of appearance and camera pose. To achieve this, we first inject the appearance context from the reference image into the self-attention layers of the frozen UNets. The rendering view is then manipulated with a novel conditional control module that interprets the camera pose by watching a condition image of a crossed subject from the same view. Furthermore, we insert a trainable cross-view attention module to enhance view consistency, which is further strengthened with a novel 3D-aware noise generation process during inference. We demonstrate state-of-the-art results both qualitatively and quantitatively on our challenging in-the-wild and multi-view benchmarks.

arxiv情報

著者 Yuming Gu,You Xie,Hongyi Xu,Guoxian Song,Yichun Shi,Di Chang,Jing Yang,Linjie Luo
発行日 2023-12-22 15:56:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク