Diffusion-driven GAN Inversion for Multi-Modal Face Image Generation

要約

テキスト プロンプトとセマンティック マスクや落書きマップなどの視覚入力をフォトリアリスティックな顔画像に変換する、新しいマルチモーダル顔画像生成方法を紹介します。
これを行うために、事前トレーニングされた GAN の潜在空間に DM のマルチモーダル機能を採用することで、敵対生成ネットワーク (GAN) と拡散モデル (DM) の長所を組み合わせます。
2 つのモデルをリンクし、特徴マップとアテンション マップの意味のある表現を潜在コードに変換するための、単純なマッピングとスタイル変調ネットワークを提示します。
GAN 逆変換を使用すると、推定された潜在コードを使用して 2D または 3D 対応の顔画像を生成できます。
さらに、生成された画像にテキスト表現と構造表現を反映する複数ステップのトレーニング戦略を提示します。
私たちが提案したネットワークは、入力とよく一致する、リアルな 2D、マルチビュー、様式化された顔画像を生成します。
私たちは事前にトレーニングされた 2D および 3D GAN を使用してメソッドを検証し、その結果は既存のメソッドを上回りました。
私たちのプロジェクト ページは https://github.com/1211sh/Diffusion-driven_GAN-Inversion/ から入手できます。

要約(オリジナル)

We present a new multi-modal face image generation method that converts a text prompt and a visual input, such as a semantic mask or scribble map, into a photo-realistic face image. To do this, we combine the strengths of Generative Adversarial networks (GANs) and diffusion models (DMs) by employing the multi-modal features in the DM into the latent space of the pre-trained GANs. We present a simple mapping and a style modulation network to link two models and convert meaningful representations in feature maps and attention maps into latent codes. With GAN inversion, the estimated latent codes can be used to generate 2D or 3D-aware facial images. We further present a multi-step training strategy that reflects textual and structural representations into the generated image. Our proposed network produces realistic 2D, multi-view, and stylized face images, which align well with inputs. We validate our method by using pre-trained 2D and 3D GANs, and our results outperform existing methods. Our project page is available at https://github.com/1211sh/Diffusion-driven_GAN-Inversion/.

arxiv情報

著者 Jihyun Kim,Changjae Oh,Hoseok Do,Soohyun Kim,Kwanghoon Sohn
発行日 2024-05-07 14:33:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク