要約
近年、テキストを用いた3D生成手法は、大規模な視覚言語と画像拡散モデルの普及を活用し、高品質なテクスチャとジオメトリを生成することに目覚ましい進歩を遂げています。しかし、既存の手法では、以下の2つの点で、高忠実度の3Dヘッドアバターを作成するのに苦労しています:(1)事前に訓練されたテキスト-画像拡散モデルにほとんど依存しており、必要な3D認識と頭部プリアが欠けている。そのため、生成されたアバターには矛盾や幾何学的な歪みが生じやすい。(2) 細かい編集ができない。これは主に、事前に学習された2D画像拡散モデルから受け継いだ制限によるもので、3D頭部アバターとなるとより顕著になる。本研究では、テキストプロンプトから3D頭部アバターを作成(すなわち、生成と編集)するためのHeadSculptと名付けられた汎用性の高い粗から細へのパイプラインを導入することにより、これらの課題を解決します。具体的には、まず、ランドマークベースの制御と、頭の後ろ姿を表す学習済みテキスト埋め込みを活用することで、拡散モデルに3D認識を持たせ、3D一貫した頭部アバターの生成を可能にします。さらに、テクスチャメッシュを高解像度の微分可能なレンダリング技術で最適化するために、アイデンティティを考慮した新しい編集スコア蒸留戦略を提案する。これにより、編集指示に従いながらアイデンティティを維持することができます。我々は、包括的な実験と既存の方法との比較を通じて、HeadSculptの優れた忠実性と編集能力を紹介する。
要約(オリジナル)
Recently, text-guided 3D generative methods have made remarkable advancements in producing high-quality textures and geometry, capitalizing on the proliferation of large vision-language and image diffusion models. However, existing methods still struggle to create high-fidelity 3D head avatars in two aspects: (1) They rely mostly on a pre-trained text-to-image diffusion model whilst missing the necessary 3D awareness and head priors. This makes them prone to inconsistency and geometric distortions in the generated avatars. (2) They fall short in fine-grained editing. This is primarily due to the inherited limitations from the pre-trained 2D image diffusion models, which become more pronounced when it comes to 3D head avatars. In this work, we address these challenges by introducing a versatile coarse-to-fine pipeline dubbed HeadSculpt for crafting (i.e., generating and editing) 3D head avatars from textual prompts. Specifically, we first equip the diffusion model with 3D awareness by leveraging landmark-based control and a learned textual embedding representing the back view appearance of heads, enabling 3D-consistent head avatar generations. We further propose a novel identity-aware editing score distillation strategy to optimize a textured mesh with a high-resolution differentiable rendering technique. This enables identity preservation while following the editing instruction. We showcase HeadSculpt’s superior fidelity and editing capabilities through comprehensive experiments and comparisons with existing methods.
arxiv情報
| 著者 | Xiao Han,Yukang Cao,Kai Han,Xiatian Zhu,Jiankang Deng,Yi-Zhe Song,Tao Xiang,Kwan-Yee K. Wong |
| 発行日 | 2023-06-05 16:53:58+00:00 |
| arxivサイト | arxiv_id(pdf) |