From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models

要約

拡散モデルは最近、テキストから画像への生成の分野に大きな変革をもたらしました。
テキスト情報と画像情報を融合する独自の方法は、高度にテキスト関連の画像を生成するという優れた機能に貢献しています。
別の観点から見ると、これらの生成モデルは、単語とピクセル間の正確な相関関係に関する手がかりを意味します。
この研究では、テキストから画像への拡散モデルのノイズ除去ネットワークでアテンション メカニズムを利用する、シンプルだが効果的な方法を提案します。
再トレーニングや推論時間の最適化を行わずに、フレーズの意味論的な基礎を直接得ることができます。
Pascal VOC 2012 および Microsoft COCO 2014 でのメソッドを、弱く監視されたセマンティック セグメンテーション設定の下で評価しました。このメソッドは、以前のメソッドよりも優れたパフォーマンスを達成しました。
さらに、取得された単語とピクセルの相関関係は、カスタマイズされた生成方法の学習済みテキスト埋め込みに対して一般化可能であり、わずかな修正を必要とするだけであることがわかります。
私たちの発見を検証するために、新しいデータセットを使用した「パーソナライズされた参照画像セグメンテーション」と呼ばれる新しい実践的なタスクを導入します。
さまざまな状況での実験により、このタスクに関する強力なベースラインと比較して、私たちの方法の利点が実証されています。
要約すると、私たちの研究は、セグメンテーションのために拡散モデルに隠された豊富なマルチモーダルな知識を抽出する新しい方法を明らかにしました。

要約(オリジナル)

Diffusion models have revolted the field of text-to-image generation recently. The unique way of fusing text and image information contributes to their remarkable capability of generating highly text-related images. From another perspective, these generative models imply clues about the precise correlation between words and pixels. In this work, a simple but effective method is proposed to utilize the attention mechanism in the denoising network of text-to-image diffusion models. Without re-training nor inference-time optimization, the semantic grounding of phrases can be attained directly. We evaluate our method on Pascal VOC 2012 and Microsoft COCO 2014 under weakly-supervised semantic segmentation setting and our method achieves superior performance to prior methods. In addition, the acquired word-pixel correlation is found to be generalizable for the learned text embedding of customized generation methods, requiring only a few modifications. To validate our discovery, we introduce a new practical task called ‘personalized referring image segmentation’ with a new dataset. Experiments in various situations demonstrate the advantages of our method compared to strong baselines on this task. In summary, our work reveals a novel way to extract the rich multi-modal knowledge hidden in diffusion models for segmentation.

arxiv情報

著者 Changming Xiao,Qi Yang,Feng Zhou,Changshui Zhang
発行日 2024-10-01 10:30:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク