Latent Diffusion U-Net Representations Contain Positional Embeddings and Anomalies

要約

拡散モデルは、現実的な画像を合成する際に顕著な能力を実証し、さまざまな下流タスクに表現を使用することに関心を促しています。
これらの表現の堅牢性をよりよく理解するために、表現の類似性と規範を使用して、一般的な安定した拡散モデルを分析します。
私たちの調査結果は、3つの現象を明らかにしています。(1)中間表現に学習された位置埋め込みの存在、(2)高類似コーナーアーティファクト、および(3)異常な高ノームアーティファクト。
これらの調査結果は、堅牢な機能を必要とする下流のタスクを検討する前に、拡散モデル表現の特性をさらに調査する必要性を強調しています。
プロジェクトページ:https://jonasloos.github.io/sd-representation-anomalies

要約(オリジナル)

Diffusion models have demonstrated remarkable capabilities in synthesizing realistic images, spurring interest in using their representations for various downstream tasks. To better understand the robustness of these representations, we analyze popular Stable Diffusion models using representational similarity and norms. Our findings reveal three phenomena: (1) the presence of a learned positional embedding in intermediate representations, (2) high-similarity corner artifacts, and (3) anomalous high-norm artifacts. These findings underscore the need to further investigate the properties of diffusion model representations before considering them for downstream tasks that require robust features. Project page: https://jonasloos.github.io/sd-representation-anomalies

arxiv情報

著者 Jonas Loos,Lorenz Linhardt
発行日 2025-04-09 16:26:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク