要約
拡散モデルは当初、画像生成のために設計された。最近の研究により、そのバックボーンにある内部信号(活性度と呼ばれる)は、意味的セグメンテーションのような様々な識別タスクのための高密度特徴としても機能することが示されている。数多くのアクティブがある場合、小さいが効果的なサブセットを選択することが基本的な問題となる。このため、この分野の初期の研究では、アクティベーションの識別能力を大規模に定量的に比較する。しかし、注意スコアを計算するためのクエリーやキーなど、多くの潜在的な活性化が評価されていないことがわかった。さらに、最近の拡散アーキテクチャの進歩により、埋め込まれたViTモジュール内の活性化など、多くの新しい活性化がもたらされている。両方を合わせると、活性化選択は未解決のまま見過ごされている。この問題に取り組むため、本稿ではさらに一歩踏み込み、評価する活性化の範囲を大幅に広げた。活性化の大幅な増加を考慮すると、本格的な定量的比較はもはや不可能である。その代わりに、これらのアクティベーションの特性を理解することで、明らかに劣っているアクティベーションを、単純な定性的評価によって事前にフィルタリングできるようにする。注意深く分析した結果、拡散モデル間で普遍的な3つの特性を発見し、特定のモデルを超えた研究を可能にした。その上で、いくつかの一般的な拡散モデルに対する効果的な特徴選択ソリューションを提示する。最後に、複数の識別タスクにわたる実験により、SOTAの競合に対する我々の手法の優位性を検証する。我々のコードはhttps://github.com/Darkbblue/generic-diffusion-feature。
要約(オリジナル)
Diffusion models are initially designed for image generation. Recent research shows that the internal signals within their backbones, named activations, can also serve as dense features for various discriminative tasks such as semantic segmentation. Given numerous activations, selecting a small yet effective subset poses a fundamental problem. To this end, the early study of this field performs a large-scale quantitative comparison of the discriminative ability of the activations. However, we find that many potential activations have not been evaluated, such as the queries and keys used to compute attention scores. Moreover, recent advancements in diffusion architectures bring many new activations, such as those within embedded ViT modules. Both combined, activation selection remains unresolved but overlooked. To tackle this issue, this paper takes a further step with a much broader range of activations evaluated. Considering the significant increase in activations, a full-scale quantitative comparison is no longer operational. Instead, we seek to understand the properties of these activations, such that the activations that are clearly inferior can be filtered out in advance via simple qualitative evaluation. After careful analysis, we discover three properties universal among diffusion models, enabling this study to go beyond specific models. On top of this, we present effective feature selection solutions for several popular diffusion models. Finally, the experiments across multiple discriminative tasks validate the superiority of our method over the SOTA competitors. Our code is available at https://github.com/Darkbblue/generic-diffusion-feature.
arxiv情報
著者 | Benyuan Meng,Qianqian Xu,Zitai Wang,Xiaochun Cao,Qingming Huang |
発行日 | 2024-10-04 16:05:14+00:00 |
arxivサイト | arxiv_id(pdf) |