要約
忠実なテキストから画像への生成のための重要な前提条件の 1 つは、テキスト入力を正確に理解することです。
既存の方法では、CLIP モデルのテキスト エンコーダーを利用して入力プロンプトを表します。
ただし、事前トレーニングされた CLIP モデルは、最大トークン長 77 の英語のみをエンコードできます。さらに、CLIP のテキスト エンコーダーのモデル容量は、多言語入力を提供し、より長い言語入力に対応する大規模言語モデル (LLM) に比べて比較的制限されています。
コンテキストを理解し、優れたテキスト表現を実現します。
この論文では、テキストから画像への生成における言語理解を向上させるためのテキスト エンコーダとしての LLM を調査します。
残念ながら、LLM を使用してテキストから画像への生成モデルを最初からトレーニングするには、大量の計算リソースとデータが必要です。
この目的を達成するために、既存のテキストから画像へのモデルを LLM と効果的かつ効率的に統合する 3 段階のトレーニング パイプラインを導入します。
具体的には、LLM からのテキスト表現を使用してテキストから画像へのモデルの高速トレーニングを可能にする軽量アダプターを提案します。
広範な実験により、私たちのモデルは多言語だけでなく、優れた画像生成品質でより長い入力コンテキストもサポートしていることが実証されました。
要約(オリジナル)
One critical prerequisite for faithful text-to-image generation is the accurate understanding of text inputs. Existing methods leverage the text encoder of the CLIP model to represent input prompts. However, the pre-trained CLIP model can merely encode English with a maximum token length of 77. Moreover, the model capacity of the text encoder from CLIP is relatively limited compared to Large Language Models (LLMs), which offer multilingual input, accommodate longer context, and achieve superior text representation. In this paper, we investigate LLMs as the text encoder to improve the language understanding in text-to-image generation. Unfortunately, training text-to-image generative model with LLMs from scratch demands significant computational resources and data. To this end, we introduce a three-stage training pipeline that effectively and efficiently integrates the existing text-to-image model with LLMs. Specifically, we propose a lightweight adapter that enables fast training of the text-to-image model using the textual representations from LLMs. Extensive experiments demonstrate that our model supports not only multilingual but also longer input context with superior image generation quality.
arxiv情報
著者 | Zhiyu Tan,Mengping Yang,Luozheng Qin,Hao Yang,Ye Qian,Qiang Zhou,Cheng Zhang,Hao Li |
発行日 | 2024-05-21 16:35:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google