IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation

要約

RPG、安定した拡散3、フラックスなどの高度な拡散モデルは、構成テキストから画像の生成において顕著な進歩を遂げました。
ただし、これらの方法は通常、組成の生成に対して明確な強度を示し、属性結合の取り扱いに優れているものと、空間的な関係にあるものもあります。
この格差は、さまざまなモデルの補完的な強さを活用して、構成能力を包括的に改善できるアプローチの必要性を強調しています。
この目的のために、複数のモデルから構成を意識したモデルの好みを集約し、組成の生成を強化するための反復フィードバック学習アプローチを採用する新しいフレームワークであるIterCompを紹介します。
具体的には、6つの強力なオープンソース拡散モデルのギャラリーをキュレートし、3つの重要な構成メトリックを評価します。属性結合、空間関係、および非空間関係です。
これらのメトリックに基づいて、構成認識モデルを訓練するための多数の画像ランクペアで構成される構成モデル優先データセットを開発します。
次に、閉ループの方法で構成性を強化するための反復フィードバック学習方法を提案し、複数の反復にわたってベース拡散モデルと報酬モデルの両方の進行性の自己修復を可能にします。
理論的証明は、特にマルチカテゴリオブジェクトの構成と複雑なセマンティックアライメントにおいて、有効性と広範な実験が以前のSOTAメソッド(例:OMOSTおよびフラックス)よりも重要な優位性を示しています。
ITERCOMPは、拡散モデルと組成生成のための報酬フィードバック学習の新しい研究手段を開きます。
コード:https://github.com/yangling0818/itercomp

要約(オリジナル)

Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made notable strides in compositional text-to-image generation. However, these methods typically exhibit distinct strengths for compositional generation, with some excelling in handling attribute binding and others in spatial relationships. This disparity highlights the need for an approach that can leverage the complementary strengths of various models to comprehensively improve the composition capability. To this end, we introduce IterComp, a novel framework that aggregates composition-aware model preferences from multiple models and employs an iterative feedback learning approach to enhance compositional generation. Specifically, we curate a gallery of six powerful open-source diffusion models and evaluate their three key compositional metrics: attribute binding, spatial relationships, and non-spatial relationships. Based on these metrics, we develop a composition-aware model preference dataset comprising numerous image-rank pairs to train composition-aware reward models. Then, we propose an iterative feedback learning method to enhance compositionality in a closed-loop manner, enabling the progressive self-refinement of both the base diffusion model and reward models over multiple iterations. Theoretical proof demonstrates the effectiveness and extensive experiments show our significant superiority over previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category object composition and complex semantic alignment. IterComp opens new research avenues in reward feedback learning for diffusion models and compositional generation. Code: https://github.com/YangLing0818/IterComp

arxiv情報

著者 Xinchen Zhang,Ling Yang,Guohao Li,Yaqi Cai,Jiake Xie,Yong Tang,Yujiu Yang,Mengdi Wang,Bin Cui
発行日 2025-02-05 14:02:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク