Decoding Vision Transformers: the Diffusion Steering Lens

要約

Logit Lensは、変圧器ベースの言語モデルの機械的解釈性のための広く採用されている方法であり、それらを出力語彙空間に投影することにより、層全体で内部表現がどのように進化するかを分析することができます。
ロジットレンズをVision Transformers(VITS)に適用することは技術的に簡単ですが、視覚表現の豊かさをキャプチャする上での直接的な使用の制限があります。
Toker et al。
(2024)〜\ cite {toker2024-ve}は、拡散レンズを導入してテキストからイメージへの拡散モデルのテキストエンコーダの中間表現を視覚化しますが、拡散レンズは画像エンコーダーの残留ストリーム表現を効果的に視覚化できる一方で、個々のサブモジュールの直接的な寄与を獲得できないことを示しています。
この制限を克服するために、\ textBf {拡散ステアリングレンズ}(DSL)を提案します。これは、サブモジュールの出力とその後の間接的な貢献をパッチする新しいトレーニングなしのアプローチです。
介入研究を通じて私たちの方法を検証し、DSLがVITSの内部処理の直感的で信頼できる解釈を提供することを示しています。

要約(オリジナル)

Logit Lens is a widely adopted method for mechanistic interpretability of transformer-based language models, enabling the analysis of how internal representations evolve across layers by projecting them into the output vocabulary space. Although applying Logit Lens to Vision Transformers (ViTs) is technically straightforward, its direct use faces limitations in capturing the richness of visual representations. Building on the work of Toker et al. (2024)~\cite{Toker2024-ve}, who introduced Diffusion Lens to visualize intermediate representations in the text encoders of text-to-image diffusion models, we demonstrate that while Diffusion Lens can effectively visualize residual stream representations in image encoders, it fails to capture the direct contributions of individual submodules. To overcome this limitation, we propose \textbf{Diffusion Steering Lens} (DSL), a novel, training-free approach that steers submodule outputs and patches subsequent indirect contributions. We validate our method through interventional studies, showing that DSL provides an intuitive and reliable interpretation of the internal processing in ViTs.

arxiv情報

著者 Ryota Takatsuki,Sonia Joseph,Ippei Fujisawa,Ryota Kanai
発行日 2025-04-18 16:00:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク