Paragraph-to-Image Generation with Information-Enriched Diffusion Model

要約

テキストツーイメージ(T2I)モデルは最近、急速な発展を経験しており、忠実度とテキストアライメント機能の点で驚くべきパフォーマンスを達成しています。
ただし、長い段落(最大512語)を考えると、これらの生成モデルは依然として強力なアライメントを達成するのに苦労しており、複雑なシーンを描いた画像を生成することができません。
この論文では、画像生成のタスクに対する大規模な言語モデルの広範な意味理解能力の転移を掘り下げて、パラグリフからイメージまでの生成タスクの情報が豊富な拡散モデルを紹介します。
コアでは、大規模な言語モデル(Llama V2など)を使用して長型のテキストをエンコードし、その後、LORAで微調整して、生成タスクのテキストイメージの特徴スペースを調整します。
ロングテキストのセマンティックアライメントのトレーニングを容易にするために、高品質の段落イメージペアデータセット、つまりPariaMageもキュレーションしました。
このデータセットには、少量の高品質で細心の注意を払って注釈付きのデータと、ビジョン言語モデルを使用して長いテキストの説明が生成されている大規模な合成データセットが含まれています。
実験では、パラディフフュージョンがVILG-300およびPARORMPTSで最先端のモデル(SD XL、Deepfloyd IF)を上回り、視覚的魅力とテキストの忠実さのためにそれぞれ最大15%および45%の人間の投票率の改善を達成することが示されています。
コードとデータセットはリリースされ、ロングテキストアラインメントに関するコミュニティの研究を促進します。

要約(オリジナル)

Text-to-image (T2I) models have recently experienced rapid development, achieving astonishing performance in terms of fidelity and textual alignment capabilities. However, given a long paragraph (up to 512 words), these generation models still struggle to achieve strong alignment and are unable to generate images depicting complex scenes. In this paper, we introduce an information-enriched diffusion model for paragraph-to-image generation task, termed ParaDiffusion, which delves into the transference of the extensive semantic comprehension capabilities of large language models to the task of image generation. At its core is using a large language model (e.g., Llama V2) to encode long-form text, followed by fine-tuning with LORA to alignthe text-image feature spaces in the generation task. To facilitate the training of long-text semantic alignment, we also curated a high-quality paragraph-image pair dataset, namely ParaImage. This dataset contains a small amount of high-quality, meticulously annotated data, and a large-scale synthetic dataset with long text descriptions being generated using a vision-language model. Experiments demonstrate that ParaDiffusion outperforms state-of-the-art models (SD XL, DeepFloyd IF) on ViLG-300 and ParaPrompts, achieving up to 15% and 45% human voting rate improvements for visual appeal and text faithfulness, respectively. The code and dataset will be released to foster community research on long-text alignment.

arxiv情報

著者 Weijia Wu,Zhuang Li,Yefei He,Mike Zheng Shou,Chunhua Shen,Lele Cheng,Yan Li,Tingting Gao,Di Zhang
発行日 2025-05-06 16:45:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク