UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance

要約

拡散生成モデルは、最近、テキスト条件付き画像生成の能力を大幅に向上させました。
既存の画像生成モデルには、主にテキスト条件付き拡散モデルとクロスモーダル誘導拡散モデルが含まれており、それぞれ小さなシーン画像生成と複雑なシーン画像生成に適しています。
この作業では、図 1 に示すように、単純で複雑なシーン画像生成を統合するためのシンプルで効果的なアプローチ、つまり UPainting を提案します。アーキテクチャの改善と多様なガイダンス スケジュールに基づいて、UPainting は事前トレーニング済みの画像からのクロスモーダル ガイダンスを効果的に統合します。
-テキスト マッチング モデルを、事前トレーニング済みの Transformer 言語モデルをテキスト エンコーダーとして利用するテキスト条件付き拡散モデルに変換します。
私たちの重要な調査結果は、言語を理解する大規模な Transformer 言語モデルと、クロスモーダル セマンティクスとスタイルをキャプチャする画像テキスト マッチング モデルの力を組み合わせることで、画像生成のサンプルの忠実度と画像テキストの配置を改善するのに効果的であるということです。
このように、UPainting にはより一般的な画像生成機能があり、単純なシーンと複雑なシーンの両方の画像をより効果的に生成できます。
テキストから画像へのモデルを包括的に比較するために、単純なシーンと複雑なシーンの両方でよく書かれた中国語と英語のプロンプトを使用して、より一般的なベンチマークである UniBench をさらに作成します。
UPainting を最近のモデルと比較したところ、単純なシーンと複雑なシーンの両方で、キャプションの類似性と画像の忠実度の点で、UPainting が他のモデルよりもはるかに優れていることがわかりました。

要約(オリジナル)

Diffusion generative models have recently greatly improved the power of text-conditioned image generation. Existing image generation models mainly include text conditional diffusion model and cross-modal guided diffusion model, which are good at small scene image generation and complex scene image generation respectively. In this work, we propose a simple yet effective approach, namely UPainting, to unify simple and complex scene image generation, as shown in Figure 1. Based on architecture improvements and diverse guidance schedules, UPainting effectively integrates cross-modal guidance from a pretrained image-text matching model into a text conditional diffusion model that utilizes a pretrained Transformer language model as the text encoder. Our key findings is that combining the power of large-scale Transformer language model in understanding language and image-text matching model in capturing cross-modal semantics and style, is effective to improve sample fidelity and image-text alignment of image generation. In this way, UPainting has a more general image generation capability, which can generate images of both simple and complex scenes more effectively. To comprehensively compare text-to-image models, we further create a more general benchmark, UniBench, with well-written Chinese and English prompts in both simple and complex scenes. We compare UPainting with recent models and find that UPainting greatly outperforms other models in terms of caption similarity and image fidelity in both simple and complex scenes.

arxiv情報

著者 Wei Li,Xue Xu,Xinyan Xiao,Jiachen Liu,Hu Yang,Guohao Li,Zhanpeng Wang,Zhifan Feng,Qiaoqiao She,Yajuan Lyu,Hua Wu
発行日 2022-10-31 02:33:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク