Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation Using only Images

要約

テキストの説明から 3D 顔を生成するには、ゲーム、映画、ロボット工学など、さまざまな用途があります。
最近の進歩により、無条件の 3D 顔生成とテキストから 3D 形状への生成が成功したことが実証されました。
ただし、テキストと 3D 顔のデータのペアが限られているため、テキスト駆動の 3D 顔の生成は未解決の問題のままです。
本稿では、テキストガイドを利用してリアルな 3D 顔を生成するための、テキストガイド付き 3D 顔生成手法 (TG-3DFace と呼ばれます) を提案します。
具体的には、無条件 3D 顔生成フレームワークを採用し、テキスト条件を装備します。これにより、テキスト 2D 顔データのみを使用してテキストガイドによる 3D 顔生成を学習します。
それに加えて、生成された 3D 顔と入力テキストの間の高い意味的一貫性を促進するために、グローバル対比学習と詳細な位置合わせモジュールを含む 2 つのテキストと顔のクロスモーダル位置合わせ技術を提案します。
さらに、推論プロセス中に方向性分類器のガイダンスを提示し、領域外の世代の創造性を促進します。
既存の方法と比較して、TG-3DFace はより現実的で美しい 3D 顔を作成し、Latent3D よりもマルチビュー一貫性 (MVIC) を 9% 向上させます。
TG-3DFace によって生成されたレンダリングされた顔画像は、テキストから 2D の顔/画像生成モデルよりも高い FID および CLIP スコアを達成しており、リアルで意味的に一貫したテクスチャの生成における当社の優位性を示しています。

要約(オリジナル)

Generating 3D faces from textual descriptions has a multitude of applications, such as gaming, movie, and robotics. Recent progresses have demonstrated the success of unconditional 3D face generation and text-to-3D shape generation. However, due to the limited text-3D face data pairs, text-driven 3D face generation remains an open problem. In this paper, we propose a text-guided 3D faces generation method, refer as TG-3DFace, for generating realistic 3D faces using text guidance. Specifically, we adopt an unconditional 3D face generation framework and equip it with text conditions, which learns the text-guided 3D face generation with only text-2D face data. On top of that, we propose two text-to-face cross-modal alignment techniques, including the global contrastive learning and the fine-grained alignment module, to facilitate high semantic consistency between generated 3D faces and input texts. Besides, we present directional classifier guidance during the inference process, which encourages creativity for out-of-domain generations. Compared to the existing methods, TG-3DFace creates more realistic and aesthetically pleasing 3D faces, boosting 9% multi-view consistency (MVIC) over Latent3D. The rendered face images generated by TG-3DFace achieve higher FID and CLIP score than text-to-2D face/image generation models, demonstrating our superiority in generating realistic and semantic-consistent textures.

arxiv情報

著者 Cuican Yu,Guansong Lu,Yihan Zeng,Jian Sun,Xiaodan Liang,Huibin Li,Zongben Xu,Songcen Xu,Wei Zhang,Hang Xu
発行日 2023-08-31 14:26:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク