要約
マルチモーダル拡散トランス(DITS)の豊富な表現は、解釈可能性を高めるユニークな特性を示していますか?
DIT注意レイヤーの表現力を活用して、画像内にテキスト概念を正確に特定する高品質の顕著性マップを生成する概念的な方法を紹介します。
追加のトレーニングを必要とせずに、コンセプトアテンションはDIT注意レイヤーのパラメーターを再利用して、高度にコンテキスト化された概念の埋め込みを生成し、DIT注意レイヤーの出力空間で線形投影を実行すると、一般的に使用される交差メカニズムと比較して大幅に鮮明な顕著性マップが得られるという主要な発見に貢献します。
驚くべきことに、概念的な競争は、ゼロショット画像セグメンテーションベンチマークで最先端のパフォーマンスを達成し、Imagenet-Segmentation DatasetおよびPascalvocの単一クラスのサブセットで11のゼロショット解釈可能性メソッドを上回ります。
私たちの研究は、フラックスのようなマルチモーダルDITモデルの表現がセグメンテーションなどの視覚タスクに非常に移行できるという最初の証拠に貢献し、クリップなどのマルチモーダルファンデーションモデルを上回ることさえあります。
要約(オリジナル)
Do the rich representations of multi-modal diffusion transformers (DiTs) exhibit unique properties that enhance their interpretability? We introduce ConceptAttention, a novel method that leverages the expressive power of DiT attention layers to generate high-quality saliency maps that precisely locate textual concepts within images. Without requiring additional training, ConceptAttention repurposes the parameters of DiT attention layers to produce highly contextualized concept embeddings, contributing the major discovery that performing linear projections in the output space of DiT attention layers yields significantly sharper saliency maps compared to commonly used cross-attention mechanisms. Remarkably, ConceptAttention even achieves state-of-the-art performance on zero-shot image segmentation benchmarks, outperforming 11 other zero-shot interpretability methods on the ImageNet-Segmentation dataset and on a single-class subset of PascalVOC. Our work contributes the first evidence that the representations of multi-modal DiT models like Flux are highly transferable to vision tasks like segmentation, even outperforming multi-modal foundation models like CLIP.
arxiv情報
著者 | Alec Helbling,Tuna Han Salih Meral,Ben Hoover,Pinar Yanardag,Duen Horng Chau |
発行日 | 2025-02-06 18:59:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google