Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models

要約

デコーダ専用トランスフォーマに基づく大規模言語モデル (LLM) は、CLIP および T5 シリーズ モデルと比較して優れたテキスト理解機能を実証しています。
ただし、テキストから画像への拡散モデルで現在の高度な LLM を利用するためのパラダイムはまだ検討されていません。
私たちは珍しい現象を観察しました。大規模な言語モデルをプロンプト エンコーダーとして直接使用すると、画像生成におけるプロンプト追従能力が大幅に低下します。
この問題の背後にある 2 つの主な障害を特定しました。
1 つは、LLM での次のトークン予測トレーニングと拡散モデルでの識別プロンプト機能の要件との間の不整合です。
もう 1 つは、デコーダのみのアーキテクチャによって導入される固有の位置バイアスです。
この問題に対処するために、LLM の機能を最大限に活用するための新しいフレームワークを提案します。
慎重に設計された使用ガイドを通じて、迅速なエンコードのためのテキスト表現機能を効果的に強化し、固有の位置バイアスを排除します。
これにより、最先端の LLM をテキストから画像への生成モデルに柔軟に統合できるようになります。
さらに、複数の LLM をフレームワークに融合する効果的な方法も提供します。
トランス アーキテクチャによって実証された優れたパフォーマンスとスケーリング機能を考慮して、フレームワークに基づいて LLM 注入拡散トランス (LI-DiT) をさらに設計します。
私たちは、モデル サイズとデータ サイズ全体で LI-DiT を検証するために広範な実験を実施しています。
LLM の固有の能力と革新的な設計の恩恵を受けて、LI-DiT の迅速な理解パフォーマンスは、最先端のオープンソース モデルや、Stable Diffusion 3、DALL などの主流のクローズドソース商用モデルを容易に上回ります。
E3とミッドジャーニーV6。
強力な LI-DiT-10B は、さらなる最適化とセキュリティ チェックを経て利用可能になります。

要約(オリジナル)

Large language models (LLMs) based on decoder-only transformers have demonstrated superior text understanding capabilities compared to CLIP and T5-series models. However, the paradigm for utilizing current advanced LLMs in text-to-image diffusion models remains to be explored. We observed an unusual phenomenon: directly using a large language model as the prompt encoder significantly degrades the prompt-following ability in image generation. We identified two main obstacles behind this issue. One is the misalignment between the next token prediction training in LLM and the requirement for discriminative prompt features in diffusion models. The other is the intrinsic positional bias introduced by the decoder-only architecture. To deal with this issue, we propose a novel framework to fully harness the capabilities of LLMs. Through the carefully designed usage guidance, we effectively enhance the text representation capability for prompt encoding and eliminate its inherent positional bias. This allows us to integrate state-of-the-art LLMs into the text-to-image generation model flexibly. Furthermore, we also provide an effective manner to fuse multiple LLMs into our framework. Considering the excellent performance and scaling capabilities demonstrated by the transformer architecture, we further design an LLM-Infused Diffusion Transformer (LI-DiT) based on the framework. We conduct extensive experiments to validate LI-DiT across model size and data size. Benefiting from the inherent ability of the LLMs and our innovative designs, the prompt understanding performance of LI-DiT easily surpasses state-of-the-art open-source models as well as mainstream closed-source commercial models including Stable Diffusion 3, DALL-E 3, and Midjourney V6. The powerful LI-DiT-10B will be available after further optimization and security checks.

arxiv情報

著者 Bingqi Ma,Zhuofan Zong,Guanglu Song,Hongsheng Li,Yu Liu
発行日 2024-06-17 17:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク