SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models

要約

テキストから画像への生成モデルとして人気が高まっている拡散モデルは、テキストのプロンプトに従って高品質でコンテンツ豊富な画像を生成できます。
ただし、入力プロンプトが簡潔な物語である場合、既存のモデルでは意味論的な理解と常識的な推論に制限があり、その結果、低品質の画像が生成されます。
ナラティブプロンプトの能力を向上させるために、事前トレーニングされた拡散モデル用の Semantic Understanding and Reasoning アダプター (SUR アダプター) と呼ばれる、シンプルでありながら効果的なパラメーター効率の良い微調整アプローチを提案します。
この目標を達成するために、まず、57,000 を超える意味的に修正されたマルチモーダル サンプルで構成される新しいデータセット SURD を収集し、注釈を付けます。
各サンプルには、単純な説明プロンプト、複雑なキーワードベースのプロンプト、および高品質の画像が含まれています。
次に、物語プロンプトの意味論的表現を複雑なプロンプトに合わせて調整し、大規模言語モデル (LLM) の知識を知識蒸留によって SUR アダプターに転送します。これにより、SUR アダプターは、高品質の言語プロンプトを構築するための強力な意味論的理解と推論機能を獲得できるようになります。
テキストから画像への生成のためのテキストの意味表現。
私たちは、複数の LLM と一般的な事前トレーニング済み拡散モデルを統合して実験を実施し、拡散モデルが画質を劣化させることなく簡潔な自然言語を理解して推論できるようにするアプローチの有効性を示します。
私たちのアプローチは、テキストから画像への拡散モデルを使いやすくし、ユーザーエクスペリエンスを向上させることができます。これは、私たちのアプローチが、単純な物語の間の意味論的なギャップを埋めることによって、ユーザーフレンドリーなテキストから画像への生成モデルの開発をさらに前進させる可能性があることを示しています。
プロンプトと複雑なキーワードベースのプロンプト。
コードは https://github.com/Qrange-group/SUR-adapter でリリースされています。

要約(オリジナル)

Diffusion models, which have emerged to become popular text-to-image generation models, can produce high-quality and content-rich images guided by textual prompts. However, there are limitations to semantic understanding and commonsense reasoning in existing models when the input prompts are concise narrative, resulting in low-quality image generation. To improve the capacities for narrative prompts, we propose a simple-yet-effective parameter-efficient fine-tuning approach called the Semantic Understanding and Reasoning adapter (SUR-adapter) for pre-trained diffusion models. To reach this goal, we first collect and annotate a new dataset SURD which consists of more than 57,000 semantically corrected multi-modal samples. Each sample contains a simple narrative prompt, a complex keyword-based prompt, and a high-quality image. Then, we align the semantic representation of narrative prompts to the complex prompts and transfer knowledge of large language models (LLMs) to our SUR-adapter via knowledge distillation so that it can acquire the powerful semantic understanding and reasoning capabilities to build a high-quality textual semantic representation for text-to-image generation. We conduct experiments by integrating multiple LLMs and popular pre-trained diffusion models to show the effectiveness of our approach in enabling diffusion models to understand and reason concise natural language without image quality degradation. Our approach can make text-to-image diffusion models easier to use with better user experience, which demonstrates our approach has the potential for further advancing the development of user-friendly text-to-image generation models by bridging the semantic gap between simple narrative prompts and complex keyword-based prompts. The code is released at https://github.com/Qrange-group/SUR-adapter.

arxiv情報

著者 Shanshan Zhong,Zhongzhan Huang,Wushao Wen,Jinghui Qin,Liang Lin
発行日 2023-08-18 09:13:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク