Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models!

要約

Stable Diffusion や DALL-E などのテキストから画像への拡散モデルは、テキスト プロンプトから高品質で多様なリアルな画像を生成できます。
ただし、プロンプトに記述されている特定のエンティティを正確に描写するのに苦労することがあります。これは、構成生成におけるエンティティ欠落問題として知られる制限です。
以前の研究では、ノイズ除去プロセス中にクロスアテンション マップを調整することでこの問題を軽減できることが示唆されていましたが、どの目的関数がこの問題に最もよく対処できるかを体系的に調査していませんでした。
この研究では、相互注意のダイナミクスに焦点を当てて、エンティティ欠落問題の 3 つの潜在的な原因を調査します: (1) 特定のエンティティに対する注意の強度が不十分、(2) 注意の広がりが広すぎる、および (3) 異なるエンティティの注意マップ間の過剰な重複

エンティティ間のアテンション マップの重複を減らすと、エンティティの欠落率を効果的に最小限に抑えることができることがわかりました。
具体的には、特定のエンティティに関連するトークンが、ノイズ除去プロセス中に特定の画像領域上の注意を求めて競合し、その結果、トークン間で注意が分散され、各エンティティの正確な表現が妨げられる可能性があると仮説を立てています。
この問題に対処するために、Intersection over Union (IoU)、重心 (CoM) 距離、Kullback-Leibler (KL) 発散、クラスタリング コンパクトネス (CC) という 4 つの損失関数を導入し、ノイズ除去ステップ中の注意の重複を調整します。
再訓練の必要性。
さまざまなベンチマークにわたる実験結果から、これらの提案されたトレーニング不要の手法は、構成の精度を大幅に向上させ、ビジュアル質問応答 (VQA)、キャプションスコア、CLIP の類似性、および人間の評価において以前のアプローチを上回っていることが明らかになりました。
注目すべきことに、これらの方法は人間の評価スコアを最良のベースラインより 9% 改善し、組成調整の大幅な改善を実証しました。

要約(オリジナル)

Text-to-image diffusion models, such as Stable Diffusion and DALL-E, are capable of generating high-quality, diverse, and realistic images from textual prompts. However, they sometimes struggle to accurately depict specific entities described in prompts, a limitation known as the entity missing problem in compositional generation. While prior studies suggested that adjusting cross-attention maps during the denoising process could alleviate this problem, they did not systematically investigate which objective functions could best address it. This study examines three potential causes of the entity-missing problem, focusing on cross-attention dynamics: (1) insufficient attention intensity for certain entities, (2) overly broad attention spread, and (3) excessive overlap between attention maps of different entities. We found that reducing overlap in attention maps between entities can effectively minimize the rate of entity missing. Specifically, we hypothesize that tokens related to specific entities compete for attention on certain image regions during the denoising process, which can lead to divided attention across tokens and prevent accurate representation of each entity. To address this issue, we introduced four loss functions, Intersection over Union (IoU), center-of-mass (CoM) distance, Kullback-Leibler (KL) divergence, and clustering compactness (CC) to regulate attention overlap during denoising steps without the need for retraining. Experimental results across a wide variety of benchmarks reveal that these proposed training-free methods significantly improve compositional accuracy, outperforming previous approaches in visual question answering (VQA), captioning scores, CLIP similarity, and human evaluations. Notably, these methods improved human evaluation scores by 9% over the best baseline, demonstrating substantial improvements in compositional alignment.

arxiv情報

著者 Arash Marioriyad,Mohammadali Banayeeanzade,Reza Abbasi,Mohammad Hossein Rohban,Mahdieh Soleymani Baghshah
発行日 2024-10-28 12:43:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク