Steering CLIP’s vision transformer with sparse autoencoders

要約

ビジョンモデルは非常に有能ですが、内部メカニズムはよく理解されていません。これは、まばらな自動エンコーダー(SAE)が言語で対処するのに役立っている課題ですが、ビジョンでは採用されていないままです。
ClipのビジョントランスでSAEをトレーニングすることにより、このギャップに対処し、レイヤーとトークンタイプを介したSAEの明確なスパース性パターンを含む、ビジョンと言語処理の重要な違いを明らかにします。
次に、メトリックを導入して、SAE機能を正確に操縦してモデルの出力に影響を与える方法を定量化することにより、Clipのビジョントランスの操縦性に関する最初の体系的な分析を提供します。
ニューロンと特徴の10〜15%が操縦可能であり、SAEはベースモデルよりも数千の操縦可能な機能を提供していることがわかります。
SAE機能のターゲットを絞った抑制を通じて、3つの視力解除タスク(セレバ、水鳥、タイポグラフィ攻撃)のパフォーマンスの向上を実証し、中間モデル層で最適な解散を見つけ、タイポグラフィ攻撃に対する防御に関する最先端のパフォーマンスを達成します。

要約(オリジナル)

While vision models are highly capable, their internal mechanisms remain poorly understood — a challenge which sparse autoencoders (SAEs) have helped address in language, but which remains underexplored in vision. We address this gap by training SAEs on CLIP’s vision transformer and uncover key differences between vision and language processing, including distinct sparsity patterns for SAEs trained across layers and token types. We then provide the first systematic analysis on the steerability of CLIP’s vision transformer by introducing metrics to quantify how precisely SAE features can be steered to affect the model’s output. We find that 10-15\% of neurons and features are steerable, with SAEs providing thousands more steerable features than the base model. Through targeted suppression of SAE features, we then demonstrate improved performance on three vision disentanglement tasks (CelebA, Waterbirds, and typographic attacks), finding optimal disentanglement in middle model layers, and achieving state-of-the-art performance on defense against typographic attacks.

arxiv情報

著者 Sonia Joseph,Praneet Suresh,Ethan Goldfarb,Lorenz Hufe,Yossi Gandelsman,Robert Graham,Danilo Bzdok,Wojciech Samek,Blake Aaron Richards
発行日 2025-04-11 17:56:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク