要約
Text-to-imageはText-to-imageのサブセットであり、より細かい演出のため、より複雑なアーキテクチャを必要とする。本論文では、Cycle Text2Faceと呼ばれるエンコーダ・デコーダのモデルを紹介する。Cycle Text2Faceはエンコーダ部分において新しい取り組みであり、文章変換器とGANを用いて、文章で記述された画像を生成する。デコーダ部で顔のテキストを再現することで、Cycleが完成するモデルです。CelebAデータセットを用いてモデルを評価した結果、従来のGANを用いたモデルよりも優れた結果を得ることができた。生成された顔の品質を測定したところ、人間の視聴者を満足させることに加え、FIDスコア3.458を得ることができました。このモデルは、高速処理を行うことで、短時間で高品質な顔画像を提供する。
要約(オリジナル)
Text-to-face is a subset of text-to-image that require more complex architecture due to their more detailed production. In this paper, we present an encoder-decoder model called Cycle Text2Face. Cycle Text2Face is a new initiative in the encoder part, it uses a sentence transformer and GAN to generate the image described by the text. The Cycle is completed by reproducing the text of the face in the decoder part of the model. Evaluating the model using the CelebA dataset, leads to better results than previous GAN-based models. In measuring the quality of the generate face, in addition to satisfying the human audience, we obtain an FID score of 3.458. This model, with high-speed processing, provides quality face images in the short time.
arxiv情報
著者 | Faezeh Gholamrezaie,Mohammad Manthouri |
発行日 | 2022-06-09 13:41:52+00:00 |
arxivサイト | arxiv_id(pdf) |