$\textit{Revelio}$: Interpreting and leveraging semantic information in diffusion models

要約

$ \ textit {how} $リッチな視覚セマンティック情報は、さまざまなレイヤー内で表され、異なる拡散アーキテクチャのタイムステップを除去します。
K-SPARSEオートエンコーダー(K-SAE)を活用することにより、モノセミックな解釈可能な機能を明らかにします。
オフシェルフ拡散モデルの機能に軽量分類器を使用した転送学習を通じて、機械的解釈を実証します。
4ドルのデータセットでは、表現学習のための拡散機能の有効性を示します。
さまざまな拡散アーキテクチャ、トレーニング前のデータセット、および言語モデルの条件付けが、視覚表現の粒度、帰納的バイアス、および転送学習能力にどのように影響するかについての詳細な分析を提供します。
私たちの仕事は、ブラックボックス拡散モデルの解釈可能性を深めるための重要なステップです。
コードと視覚化は、https://github.com/revelio-diffusion/revelioで入手できます

要約(オリジナル)

We study $\textit{how}$ rich visual semantic information is represented within various layers and denoising timesteps of different diffusion architectures. We uncover monosemantic interpretable features by leveraging k-sparse autoencoders (k-SAE). We substantiate our mechanistic interpretations via transfer learning using light-weight classifiers on off-the-shelf diffusion models’ features. On $4$ datasets, we demonstrate the effectiveness of diffusion features for representation learning. We provide an in-depth analysis of how different diffusion architectures, pre-training datasets, and language model conditioning impacts visual representation granularity, inductive biases, and transfer learning capabilities. Our work is a critical step towards deepening interpretability of black-box diffusion models. Code and visualizations available at: https://github.com/revelio-diffusion/revelio

arxiv情報

著者 Dahye Kim,Xavier Thomas,Deepti Ghadiyaram
発行日 2025-05-30 17:11:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク