Free-style and Fast 3D Portrait Synthesis

要約

高品質で一貫性のあるフリースタイルの 3D ポートレートを効率的に生成することは、将来性がありながらも困難な作業です。
ほとんどの既存の方法で生成されるポートレート スタイルは、通常、FFHQ などの特定の顔データセットで学習される 3D ジェネレーターによって制限されます。
フリー スタイルの 3D ポートレートを取得するには、大規模なマルチスタイル データベースを構築して 3D ジェネレーターを再トレーニングするか、既製のツールを使用してスタイル変換を行うことができます。
ただし、前者はデータ収集とトレーニングのプロセスに時間がかかり、後者はマルチビューの一貫性を破壊する可能性があります。
この問題に取り組むために、この論文では、テキスト プロンプトを使用してスタイルを指定できる高速 3D ポートレート合成フレームワークを提案します。
具体的には、特定のポートレート スタイルについて、まず 3D 対応 GAN ジェネレーター (EG3D) とテキストガイド付き画像エディター (Ip2p) の 2 つの事前生成を活用して、数ショットのトレーニング セットを迅速に構築します。
Ip2p は編集をより安定させるために最適化されています。
次に、EG3D の元のトライプレーン ジェネレーターを Image-to-Triplane (I2T) モジュールに置き換えます。これは 2 つの目的があります。1) 少数ショット データセットで I2T を微調整することで、事前トレーニングされた EG3D のスタイル制約を取り除く。
2) I2T を除く EG3D のすべての部分を修正することでトレーニング効率を向上させます。
さらに、マルチスタイルおよびマルチアイデンティティの 3D ポートレートデータベースを構築して、この方法の拡張性と一般化を実証します。
実験結果は、私たちの方法が、指定されたスタイルを持つ高品質の 3D ポートレートを数分で合成でき、最先端の方法を上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

Efficiently generating a free-style 3D portrait with high quality and consistency is a promising yet challenging task. The portrait styles generated by most existing methods are usually restricted by their 3D generators, which are learned in specific facial datasets, such as FFHQ. To get a free-style 3D portrait, one can build a large-scale multi-style database to retrain the 3D generator, or use a off-the-shelf tool to do the style translation. However, the former is time-consuming due to data collection and training process, the latter may destroy the multi-view consistency. To tackle this problem, we propose a fast 3D portrait synthesis framework in this paper, which enable one to use text prompts to specify styles. Specifically, for a given portrait style, we first leverage two generative priors, a 3D-aware GAN generator (EG3D) and a text-guided image editor (Ip2p), to quickly construct a few-shot training set, where the inference process of Ip2p is optimized to make editing more stable. Then we replace original triplane generator of EG3D with a Image-to-Triplane (I2T) module for two purposes: 1) getting rid of the style constraints of pre-trained EG3D by fine-tuning I2T on the few-shot dataset; 2) improving training efficiency by fixing all parts of EG3D except I2T. Furthermore, we construct a multi-style and multi-identity 3D portrait database to demonstrate the scalability and generalization of our method. Experimental results show that our method is capable of synthesizing high-quality 3D portraits with specified styles in a few minutes, outperforming the state-of-the-art.

arxiv情報

著者 Tianxiang Ma,Kang Zhao,Jianxin Sun,Jing Dong,Tieniu Tan
発行日 2023-06-27 12:23:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク