Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models

要約

AIの安全性にとって解釈可能性と操縦性が重要であることを考えると、スパース自動エンコーダー(SAE)は、大規模な言語モデル(LLM)でそれらを強化するツールとして浮上しています。
この作業では、SAEの適用をクリップなどのビジョン言語モデル(VLM)に拡張し、視覚表現のニューロンレベルで単一態度を評価するための包括的なフレームワークを導入します。
評価が人間の認識と一致するようにするために、大規模なユーザー調査から派生したベンチマークを提案します。
私たちの実験結果は、VLMSで訓練されたSAEが個々のニューロンの単系態度を大幅に向上させることを明らかにしています。スパース性と幅広い潜伏は最も影響力のある要因です。
特に、ClipのVisionエンコーダーにSAE介入を適用すると、基礎となるモデルに変更がなく、マルチモーダルLLM出力(LLAVAなど)を直接操縦することが示されています。
これらの発見は、VLMの解釈可能性と制御の両方を強化するための監視されていないツールとしてのSAEの実用性と有効性を強調しています。
コードはhttps://github.com/explainableml/sae-for-vlmで入手できます。

要約(オリジナル)

Given that interpretability and steerability are crucial to AI safety, Sparse Autoencoders (SAEs) have emerged as a tool to enhance them in Large Language Models (LLMs). In this work, we extend the application of SAEs to Vision-Language Models (VLMs), such as CLIP, and introduce a comprehensive framework for evaluating monosemanticity at the neuron-level in vision representations. To ensure that our evaluation aligns with human perception, we propose a benchmark derived from a large-scale user study. Our experimental results reveal that SAEs trained on VLMs significantly enhance the monosemanticity of individual neurons, with sparsity and wide latents being the most influential factors. Notably, we demonstrate that applying SAE interventions on CLIP’s vision encoder directly steers multimodal LLM outputs (e.g., LLaVA), without any modifications to the underlying model. These findings emphasize the practicality and efficacy of SAEs as an unsupervised tool for enhancing both interpretability and control of VLMs. Code is available at https://github.com/ExplainableML/sae-for-vlm.

arxiv情報

著者 Mateusz Pach,Shyamgopal Karthik,Quentin Bouniot,Serge Belongie,Zeynep Akata
発行日 2025-06-06 17:18:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク