MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask

要約

拡散モデルの最近の進歩により、視覚的に印象的な画像を生成する素晴らしい能力が実証されました。
それにもかかわらず、生成された画像と指定されたプロンプトが厳密に一致することを保証することは、依然として課題です。
この研究では、テキストと画像の不一致の問題を引き起こす重要な要因が、プロンプトと出力画像の間のクロスモダリティ関係の学習が不十分であることを特定しました。
プロンプトと画像コンテンツをより適切に調整するために、アテンション マップとプロンプトの埋め込みに条件付けされたアダプティブ マスクを使用してクロス アテンションを進め、画像の特徴に対する各テキスト トークンの寄与を動的に調整します。
このメカニズムにより、テキスト エンコーダーから埋め込まれた意味情報のあいまいさが明らかに軽減され、合成画像におけるテキストと画像の一貫性が向上します。
MaskDiffusion と呼ばれる私たちの手法はトレーニング不要で、一般的な事前トレーニング済みの拡散モデルに対してホットプラグ可能です。
潜在拡散モデルに適用すると、MaskDiffusion は元の拡散モデルと比較して無視できる計算オーバーヘッドでテキストと画像の一貫性を大幅に向上させることができます。

要約(オリジナル)

Recent advancements in diffusion models have showcased their impressive capacity to generate visually striking images. Nevertheless, ensuring a close match between the generated image and the given prompt remains a persistent challenge. In this work, we identify that a crucial factor leading to the text-image mismatch issue is the inadequate cross-modality relation learning between the prompt and the output image. To better align the prompt and image content, we advance the cross-attention with an adaptive mask, which is conditioned on the attention maps and the prompt embeddings, to dynamically adjust the contribution of each text token to the image features. This mechanism explicitly diminishes the ambiguity in semantic information embedding from the text encoder, leading to a boost of text-to-image consistency in the synthesized images. Our method, termed MaskDiffusion, is training-free and hot-pluggable for popular pre-trained diffusion models. When applied to the latent diffusion models, our MaskDiffusion can significantly improve the text-to-image consistency with negligible computation overhead compared to the original diffusion models.

arxiv情報

著者 Yupeng Zhou,Daquan Zhou,Zuo-Liang Zhu,Yaxing Wang,Qibin Hou,Jiashi Feng
発行日 2023-09-08 15:53:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク