RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models

要約

ポートレート画像から高忠実度の3Dアバターを生成できるRodinHDを紹介します。
既存の手法では、この論文で取り上げるヘアスタイルなどの複雑な詳細を捉えることができません。
まず、MLP デコーダ共有スキームによって引き起こされる、トリプレーンを多くのアバターに順番に当てはめるときに発生する壊滅的な忘却という見落とされている問題を特定します。
この問題を克服するために、新しいデータ スケジューリング戦略と重み統合正則化項を提案します。これにより、より鮮明な詳細をレンダリングするデコーダーの能力が向上します。
さらに、豊かな 2D テクスチャ キューをキャプチャするよりきめの細かい階層表現を計算し、クロスアテンションを介して複数のレイヤーで 3D 拡散モデルに注入することで、ポートレート画像のガイド効果を最適化します。
トライプレーン用に最適化されたノイズ スケジュールを使用して 46K アバターでトレーニングすると、結果のモデルは以前の方法よりも著しく詳細な 3D アバターを生成でき、実際のポートレート入力に一般化できます。

要約(オリジナル)

We present RodinHD, which can generate high-fidelity 3D avatars from a portrait image. Existing methods fail to capture intricate details such as hairstyles which we tackle in this paper. We first identify an overlooked problem of catastrophic forgetting that arises when fitting triplanes sequentially on many avatars, caused by the MLP decoder sharing scheme. To overcome this issue, we raise a novel data scheduling strategy and a weight consolidation regularization term, which improves the decoder’s capability of rendering sharper details. Additionally, we optimize the guiding effect of the portrait image by computing a finer-grained hierarchical representation that captures rich 2D texture cues, and injecting them to the 3D diffusion model at multiple layers via cross-attention. When trained on 46K avatars with a noise schedule optimized for triplanes, the resulting model can generate 3D avatars with notably better details than previous methods and can generalize to in-the-wild portrait input.

arxiv情報

著者 Bowen Zhang,Yiji Cheng,Chunyu Wang,Ting Zhang,Jiaolong Yang,Yansong Tang,Feng Zhao,Dong Chen,Baining Guo
発行日 2024-07-09 15:14:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク