要約
この作品では、テキスト記述から 3D 頭部を生成するための HeadArtist を紹介します。
生成事前生成として機能するランドマークに基づく ControlNet を使用して、事前蒸留自体の監視下でパラメーター化された 3D 頭部モデルを最適化する効率的なパイプラインを考案します。
このようなプロセスを自己スコア蒸留 (SSD) と呼びます。
詳細には、サンプリングされたカメラのポーズが与えられると、まず頭部モデルから画像とそれに対応するランドマークをレンダリングし、特定のレベルのノイズを画像に追加します。
次に、ノイズの多い画像、ランドマーク、およびテキストの状態が、ノイズ予測のためにフリーズされた ControlNet に 2 回供給されます。
これら 2 つの予測中に 2 つの異なる分類子不要ガイダンス (CFG) 重みが適用され、予測の差によって、レンダリングされたイメージが対象のテキストとどのようによりよく一致するかについての方向性が示されます。
実験結果は、私たちのアプローチが適切な幾何学形状とフォトリアリスティックな外観を備えた高品質の 3D 頭部彫刻を提供し、最先端の方法を大幅に上回るパフォーマンスを示していることを示唆しています。
また、同じパイプラインが、ジオメトリの変形と外観の変更の両方を含む、生成されたヘッドの編集をサポートしていることも示します。
要約(オリジナル)
This work presents HeadArtist for 3D head generation from text descriptions. With a landmark-guided ControlNet serving as the generative prior, we come up with an efficient pipeline that optimizes a parameterized 3D head model under the supervision of the prior distillation itself. We call such a process self score distillation (SSD). In detail, given a sampled camera pose, we first render an image and its corresponding landmarks from the head model, and add some particular level of noise onto the image. The noisy image, landmarks, and text condition are then fed into the frozen ControlNet twice for noise prediction. Two different classifier-free guidance (CFG) weights are applied during these two predictions, and the prediction difference offers a direction on how the rendered image can better match the text of interest. Experimental results suggest that our approach delivers high-quality 3D head sculptures with adequate geometry and photorealistic appearance, significantly outperforming state-ofthe-art methods. We also show that the same pipeline well supports editing the generated heads, including both geometry deformation and appearance change.
arxiv情報
著者 | Hongyu Liu,Xuan Wang,Ziyu Wan,Yujun Shen,Yibing Song,Jing Liao,Qifeng Chen |
発行日 | 2024-05-08 13:29:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google