IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation

要約

RPG、Stable Diffusion 3、FLUX などの高度な拡散モデルは、テキストから画像への合成生成において顕著な進歩を遂げました。
ただし、これらの方法は通常、属性バインディングの処理に優れているものや、空間関係の処理に優れているものなど、構成生成に関して明確な強みを示します。
この差異は、さまざまなモデルの補完的な長所を活用して、合成機能を包括的に向上させるアプローチの必要性を浮き彫りにしています。
この目的を達成するために、複数のモデルから構成を意識したモデル設定を集約し、反復フィードバック学習アプローチを採用して構成生成を強化する新しいフレームワークである IterComp を紹介します。
具体的には、6 つの強力なオープンソース拡散モデルのギャラリーを厳選し、それらの 3 つの主要な構成指標 (属性バインディング、空間関係、非空間関係) を評価します。
これらのメトリクスに基づいて、構図を意識した報酬モデルをトレーニングするために、多数の画像ランクのペアで構成される構図を意識したモデル嗜好データセットを開発します。
次に、閉ループ方式で構成性を強化する反復フィードバック学習方法を提案します。これにより、複数の反復にわたってベース拡散モデルと報酬モデルの両方の漸進的な自己洗練が可能になります。
理論的な証明によって有効性が実証され、広範な実験によって、特にマルチカテゴリのオブジェクトの構成と複雑なセマンティックの調整において、以前の SOTA 手法 (Omost や FLUX など) よりも大幅に優れていることが示されています。
IterComp は、拡散モデルと組成生成のための報酬フィードバック学習における新しい研究の道を開きます。
コード: https://github.com/YangLing0818/IterComp

要約(オリジナル)

Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made notable strides in compositional text-to-image generation. However, these methods typically exhibit distinct strengths for compositional generation, with some excelling in handling attribute binding and others in spatial relationships. This disparity highlights the need for an approach that can leverage the complementary strengths of various models to comprehensively improve the composition capability. To this end, we introduce IterComp, a novel framework that aggregates composition-aware model preferences from multiple models and employs an iterative feedback learning approach to enhance compositional generation. Specifically, we curate a gallery of six powerful open-source diffusion models and evaluate their three key compositional metrics: attribute binding, spatial relationships, and non-spatial relationships. Based on these metrics, we develop a composition-aware model preference dataset comprising numerous image-rank pairs to train composition-aware reward models. Then, we propose an iterative feedback learning method to enhance compositionality in a closed-loop manner, enabling the progressive self-refinement of both the base diffusion model and reward models over multiple iterations. Theoretical proof demonstrates the effectiveness and extensive experiments show our significant superiority over previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category object composition and complex semantic alignment. IterComp opens new research avenues in reward feedback learning for diffusion models and compositional generation. Code: https://github.com/YangLing0818/IterComp

arxiv情報

著者 Xinchen Zhang,Ling Yang,Guohao Li,Yaqi Cai,Jiake Xie,Yong Tang,Yujiu Yang,Mengdi Wang,Bin Cui
発行日 2024-10-09 17:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク