Improving face generation quality and prompt following with synthetic captions

要約

拡散モデルを使用したテキストから画像への生成における最近の進歩により、生成される画像の品質が大幅に向上し、広範囲のオブジェクトを描写する能力が拡張されました。
ただし、これらのモデルがテキスト プロンプトに厳密に準拠していることを確認することは、依然として大きな課題です。
この問題は、人間の写実的な画像を生成しようとする場合に特に顕著です。
大幅な迅速なエンジニアリングの努力がなければ、モデルは非現実的な画像を生成することが多く、通常、迅速な情報を完全に組み込むことができません。
この制限は、大規模な拡散モデルのトレーニングに使用される画像に付随するキャプションの性質に主に起因しており、通常、人物の外観に関する詳細よりもコンテキスト情報が優先されます。
このペーパーでは、人の画像から正確な外観の記述を生成するように設計されたトレーニング不要のパイプラインを導入することで、この問題に対処します。
この方法を適用して、公開されている顔データセットに対して約 250,000 のキャプションを作成します。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整します。
私たちの結果は、このアプローチにより、ベースライン モデルと比較して、高品質でリアルな人間の顔を生成するモデルの能力が大幅に向上し、指定されたプロンプトへの順守が強化されることを示しています。
合成キャプション、事前トレーニングされたチェックポイント、トレーニング コードを共有します。

要約(オリジナル)

Recent advancements in text-to-image generation using diffusion models have significantly improved the quality of generated images and expanded the ability to depict a wide range of objects. However, ensuring that these models adhere closely to the text prompts remains a considerable challenge. This issue is particularly pronounced when trying to generate photorealistic images of humans. Without significant prompt engineering efforts models often produce unrealistic images and typically fail to incorporate the full extent of the prompt information. This limitation can be largely attributed to the nature of captions accompanying the images used in training large scale diffusion models, which typically prioritize contextual information over details related to the person’s appearance. In this paper we address this issue by introducing a training-free pipeline designed to generate accurate appearance descriptions from images of people. We apply this method to create approximately 250,000 captions for publicly available face datasets. We then use these synthetic captions to fine-tune a text-to-image diffusion model. Our results demonstrate that this approach significantly improves the model’s ability to generate high-quality, realistic human faces and enhances adherence to the given prompts, compared to the baseline model. We share our synthetic captions, pretrained checkpoints and training code.

arxiv情報

著者 Michail Tarasiou,Stylianos Moschoglou,Jiankang Deng,Stefanos Zafeiriou
発行日 2024-05-17 15:50:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク