要約
ビジョンモデルを真に理解するには、学習した機能を解釈するだけでなく、制御された実験を通じてこれらの解釈を検証する必要があります。
現在のアプローチは、因果関係のある影響をテストする機能なしで解釈可能な機能を提供するか、解釈可能なコントロールなしでモデル編集を有効にします。
このギャップを橋渡しするスパース自動エンコーダー(SAE)を使用して統一されたフレームワークを提示し、人間が解釈できる視覚的特徴を発見し、モデルの動作に関する仮説をテストするためにそれらを正確に操作できるようにします。
最先端のビジョンモデルに方法を適用することにより、さまざまなトレーニング目標を持つモデルによって学習されたセマンティック抽象化の重要な違いを明らかにします。
次に、複数のビジョンタスクにわたる制御された介入を通じて、フレームワークの実際的な使用を実証します。
SAEは、モデルの再トレーニングなしで解釈可能な視覚的特徴を確実に識別し、操作できることを示し、ビジョンモデルの動作を理解および制御するための強力なツールを提供します。
プロジェクトWebサイトでコード、デモ、モデルを提供します:https://osu-nlp-group.github.io/sae-v。
要約(オリジナル)
To truly understand vision models, we must not only interpret their learned features but also validate these interpretations through controlled experiments. Current approaches either provide interpretable features without the ability to test their causal influence, or enable model editing without interpretable controls. We present a unified framework using sparse autoencoders (SAEs) that bridges this gap, allowing us to discover human-interpretable visual features and precisely manipulate them to test hypotheses about model behavior. By applying our method to state-of-the-art vision models, we reveal key differences in the semantic abstractions learned by models with different pre-training objectives. We then demonstrate the practical usage of our framework through controlled interventions across multiple vision tasks. We show that SAEs can reliably identify and manipulate interpretable visual features without model re-training, providing a powerful tool for understanding and controlling vision model behavior. We provide code, demos and models on our project website: https://osu-nlp-group.github.io/SAE-V.
arxiv情報
著者 | Samuel Stevens,Wei-Lun Chao,Tanya Berger-Wolf,Yu Su |
発行日 | 2025-02-10 18:32:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google