SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models

要約

タイトル:SUR-adapter:大規模言語モデルを用いたテキストから画像生成モデルの改良
要約:

– 出現したテキストから画像生成モデルであるDiffusionモデルは、テキストによって高品質で内容豊かな画像を導くことができる。しかし、プロンプトが簡潔なナラティブの場合、既存のモデルには意味理解と常識的推論の限界があるため、低品質な画像生成が起こることがある。
– この問題を解決するために、Semantic Understanding and Reasoningアダプター(SUR-adapter)と呼ばれるシンプルで効果的なパラメーター効率の高いファインチューニング手法を提案している。このために、57,000を超える意味的に修正されたマルチモーダルサンプルからなる新しいデータセットSURDを収集し、注釈を付けている。各サンプルには、簡単なナラティブプロンプト、複雑なキーワードベースのプロンプト、および高品質の画像が含まれている。
– 次に、ナラティブプロンプトの意味的表現を複雑なプロンプトに合わせ、大規模言語モデル(LLMs)の知識を転移学習を通じてSUR-adapterに伝えることで、テキストから画像生成のための強力な意味理解と推論能力を獲得するようにしている。
– 複数のLLMsと人気のある事前訓練済みDiffusionモデルを統合する実験を実施し、プロンプトが簡潔な自然言語による意味理解と推論を容易にする効果的な手法を提案し、画像品質の劣化を招かずDiffusionモデルの使用をより使いやすくすることができることを示した。
– この手法は、簡潔なナラティブプロンプトと複雑なキーワードベースのプロンプトの間の意味的ギャップを埋めることにより、ユーザーフレンドリーなテキストから画像生成モデルの開発を推進する可能性がある。

要約(オリジナル)

Diffusion models, which have emerged to become popular text-to-image generation models, can produce high-quality and content-rich images guided by textual prompts. However, there are limitations to semantic understanding and commonsense reasoning in existing models when the input prompts are concise narrative, resulting in low-quality image generation. To improve the capacities for narrative prompts, we propose a simple-yet-effective parameter-efficient fine-tuning approach called the Semantic Understanding and Reasoning adapter (SUR-adapter) for pre-trained diffusion models. To reach this goal, we first collect and annotate a new dataset SURD which consists of more than 57,000 semantically corrected multi-modal samples. Each sample contains a simple narrative prompt, a complex keyword-based prompt, and a high-quality image. Then, we align the semantic representation of narrative prompts to the complex prompts and transfer knowledge of large language models (LLMs) to our SUR-adapter via knowledge distillation so that it can acquire the powerful semantic understanding and reasoning capabilities to build a high-quality textual semantic representation for text-to-image generation. We conduct experiments by integrating multiple LLMs and popular pre-trained diffusion models to show the effectiveness of our approach in enabling diffusion models to understand and reason concise natural language without image quality degradation. Our approach can make text-to-image diffusion models easier to use with better user experience, which demonstrates our approach has the potential for further advancing the development of user-friendly text-to-image generation models by bridging the semantic gap between simple narrative prompts and complex keyword-based prompts.

arxiv情報

著者 Shanshan Zhong,Zhongzhan Huang,Wushao Wen,Jinghui Qin,Liang Lin
発行日 2023-05-09 05:48:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV パーマリンク