Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion Models

要約

拡散ベースの Text-to-Image (T2I) モデルによって最近の大幅な進歩が達成されたにもかかわらず、現在のシステムは、特にマルチオブジェクトの生成において、テキスト プロンプトに合わせたまともな構成生成を保証する能力がまだ劣っています。
この研究は、そのような不整合の根本的な理由を明らかにし、低い注意活性化スコアとマスクの重複に関連する問題を正確に指摘します。
これまでの研究活動ではこれらの問題に個別に取り組んできましたが、私たちは総合的なアプローチが最も重要であると主張します。
したがって、我々は、それぞれオブジェクトマスクの重なりを削減し、注意スコアを最大化する、分離損失と強化損失という 2 つの新しい目的を提案します。
私たちの方法は、従来のテスト時間適応技術とは異なり、スケーラビリティと汎用性を高める重要なパラメータの微調整に焦点を当てています。
包括的な評価により、画像のリアリズム、テキストと画像の位置合わせ、および適応性の点でモデルの優れたパフォーマンスが実証され、特に著名なベースラインを上回っています。
最終的に、この研究は、強化された組成能力とより幅広い適用性を備えた T2I 拡散モデルへの道を切り開きます。

要約(オリジナル)

Despite recent significant strides achieved by diffusion-based Text-to-Image (T2I) models, current systems are still less capable of ensuring decent compositional generation aligned with text prompts, particularly for the multi-object generation. This work illuminates the fundamental reasons for such misalignment, pinpointing issues related to low attention activation scores and mask overlaps. While previous research efforts have individually tackled these issues, we assert that a holistic approach is paramount. Thus, we propose two novel objectives, the Separate loss and the Enhance loss, that reduce object mask overlaps and maximize attention scores, respectively. Our method diverges from conventional test-time-adaptation techniques, focusing on finetuning critical parameters, which enhances scalability and generalizability. Comprehensive evaluations demonstrate the superior performance of our model in terms of image realism, text-image alignment, and adaptability, notably outperforming prominent baselines. Ultimately, this research paves the way for T2I diffusion models with enhanced compositional capacities and broader applicability.

arxiv情報

著者 Zhipeng Bao,Yijun Li,Krishna Kumar Singh,Yu-Xiong Wang,Martial Hebert
発行日 2024-01-31 18:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク