CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching

要約

拡散モデルは、テキストから画像への生成の分野で大きな成功を収めている。しかし、テキストプロンプトと画像との間の位置ずれを緩和することは依然として困難である。ミスアライメントの背後にある根本的な理由は広く研究されていない。我々は、この位置ずれは、トークンの注意の活性化が不十分であることが原因であることを観察している。さらに、この現象は、拡散モデルの学習パラダイムに起因する、不十分な条件利用によるものである。この問題に対処するため、画像からテキストへのコンセプトマッチング機構を持つエンドツーエンドの拡散モデル微調整戦略であるCoMatを提案する。画像からテキストへの整合を測定し、無視されたトークンを再訪するように拡散モデルを導くために、画像キャプションモデルを活用する。属性結合問題に対処するために、新しい属性集中モジュールも提案する。画像や人間の嗜好データがない場合、SDXLを微調整してCoMat-SDXLを得るために20Kのテキストプロンプトのみを使用する。広範な実験により、CoMat-SDXLは2つのテキストから画像へのアライメントベンチマークにおいてベースラインモデルSDXLを大幅に上回り、最先端の性能を達成することが示された。

要約(オリジナル)

Diffusion models have demonstrated great success in the field of text-to-image generation. However, alleviating the misalignment between the text prompts and images is still challenging. The root reason behind the misalignment has not been extensively investigated. We observe that the misalignment is caused by inadequate token attention activation. We further attribute this phenomenon to the diffusion model’s insufficient condition utilization, which is caused by its training paradigm. To address the issue, we propose CoMat, an end-to-end diffusion model fine-tuning strategy with an image-to-text concept matching mechanism. We leverage an image captioning model to measure image-to-text alignment and guide the diffusion model to revisit ignored tokens. A novel attribute concentration module is also proposed to address the attribute binding problem. Without any image or human preference data, we use only 20K text prompts to fine-tune SDXL to obtain CoMat-SDXL. Extensive experiments show that CoMat-SDXL significantly outperforms the baseline model SDXL in two text-to-image alignment benchmarks and achieves start-of-the-art performance.

arxiv情報

著者 Dongzhi Jiang,Guanglu Song,Xiaoshi Wu,Renrui Zhang,Dazhong Shen,Zhuofan Zong,Yu Liu,Hongsheng Li
発行日 2024-06-03 06:02:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク