要約
拡散モデルは、テキストから画像への生成において優れた能力を発揮してきた。また、大規模な言語モデル(T5、Llamaなど)により、その意味理解(プロンプト追従)能力も大幅に向上している。しかし、既存のモデルは、特にテキストプロンプトが多数の属性と相互に関連する空間的関係を持つ様々なオブジェクトを含む場合、長くて複雑なテキストプロンプトを完璧に扱うことはできない。本報告では、アテンション操作に基づくFLUX.1向けの地域プロンプトを提案・実装することで、訓練不要でDiTによるきめ細かなテキスト画像生成機能を実現する。コードはhttps://github.com/antonioo-c/Regional-Prompting-FLUX。
要約(オリジナル)
Diffusion models have demonstrated excellent capabilities in text-to-image generation. Their semantic understanding (i.e., prompt following) ability has also been greatly improved with large language models (e.g., T5, Llama). However, existing models cannot perfectly handle long and complex text prompts, especially when the text prompts contain various objects with numerous attributes and interrelated spatial relationships. While many regional prompting methods have been proposed for UNet-based models (SD1.5, SDXL), but there are still no implementations based on the recent Diffusion Transformer (DiT) architecture, such as SD3 and FLUX.1.In this report, we propose and implement regional prompting for FLUX.1 based on attention manipulation, which enables DiT with fined-grained compositional text-to-image generation capability in a training-free manner. Code is available at https://github.com/antonioo-c/Regional-Prompting-FLUX.
arxiv情報
著者 | Anthony Chen,Jianjin Xu,Wenzhao Zheng,Gaole Dai,Yida Wang,Renrui Zhang,Haofan Wang,Shanghang Zhang |
発行日 | 2024-11-04 18:59:05+00:00 |
arxivサイト | arxiv_id(pdf) |