要約
与えられた条件からフォトリアリスティックな 3D 顔を生成するのは困難な作業です。
既存の方法は、時間のかかる 1 つずつの最適化アプローチに依存していることが多く、同じ配信コンテンツ (顔など) をモデル化するには効率的ではありません。
さらに、理想的な制御可能な 3D 顔生成モデルでは、顔の属性と表情の両方を考慮する必要があります。
そこで、我々はタスクを 3 つのコンポーネント、つまり 3D GAN Inversion、Conditional Style Code Diffusion、3D Face Decoding に分割することでこれらの課題に対処する TEx-Face(TExt & Expression-to-Face) と呼ばれる新しいアプローチを提案します。
3D GAN 反転については、スタイル コードの表現を強化し、3D の不一致を軽減することを目的とした 2 つの方法を導入します。
さらに、スタイル コードに複数の条件を組み込むスタイル コード デノイザーを設計し、対の視覚言語データが不十分である問題に対処するデータ拡張戦略を提案します。
FFHQ、CelebA-HQ、および CelebA-Dialog で行われた広範な実験により、写真のようにリアルな 3D 顔を効率的かつ制御可能に生成する TEx-Face の有望なパフォーマンスが実証されました。
コードは https://github.com/sxl142/TEx-Face で入手できます。
要約(オリジナル)
Generating photorealistic 3D faces from given conditions is a challenging task. Existing methods often rely on time-consuming one-by-one optimization approaches, which are not efficient for modeling the same distribution content, e.g., faces. Additionally, an ideal controllable 3D face generation model should consider both facial attributes and expressions. Thus we propose a novel approach called TEx-Face(TExt & Expression-to-Face) that addresses these challenges by dividing the task into three components, i.e., 3D GAN Inversion, Conditional Style Code Diffusion, and 3D Face Decoding. For 3D GAN inversion, we introduce two methods which aim to enhance the representation of style codes and alleviate 3D inconsistencies. Furthermore, we design a style code denoiser to incorporate multiple conditions into the style code and propose a data augmentation strategy to address the issue of insufficient paired visual-language data. Extensive experiments conducted on FFHQ, CelebA-HQ, and CelebA-Dialog demonstrate the promising performance of our TEx-Face in achieving the efficient and controllable generation of photorealistic 3D faces. The code will be available at https://github.com/sxl142/TEx-Face.
arxiv情報
著者 | Xiaolong Shen,Jianxin Ma,Chang Zhou,Zongxin Yang |
発行日 | 2023-12-21 15:32:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google