Sparse autoencoders reveal selective remapping of visual concepts during adaptation

要約

基礎モデルを特定の目的に適合させることは、下流アプリケーション用の機械学習システムを構築するための標準的なアプローチになっています。
しかし、適応中にどのようなメカニズムが起こるかは未解決の疑問です。
ここでは、PatchSAE という名前の CLIP ビジョン トランスフォーマー用の新しいスパース オートエンコーダー (SAE) を開発し、解釈可能な概念を粒度レベル (オブジェクトの形状、色、セマンティクスなど) とパッチごとの空間属性で抽出します。
これらの概念が下流の画像分類タスクにおけるモデル出力にどのような影響を与えるかを調査し、最新のプロンプトベースの適応技術がモデル入力とこれらの概念との関連付けをどのように変化させるかを調査します。
概念の活性化は適応モデルと非適応モデルの間でわずかに異なりますが、一般的な適応タスクの利益の大部分は、非適応基礎モデルにすでに存在する既存の概念で説明できることがわかりました。
この研究は、ビジョン トランスフォーマーの SAE をトレーニングして使用するための具体的なフレームワークを提供し、適応メカニズムを説明するための洞察を提供します。

要約(オリジナル)

Adapting foundation models for specific purposes has become a standard approach to build machine learning systems for downstream applications. Yet, it is an open question which mechanisms take place during adaptation. Here we develop a new Sparse Autoencoder (SAE) for the CLIP vision transformer, named PatchSAE, to extract interpretable concepts at granular levels (e.g. shape, color, or semantics of an object) and their patch-wise spatial attributions. We explore how these concepts influence the model output in downstream image classification tasks and investigate how recent state-of-the-art prompt-based adaptation techniques change the association of model inputs to these concepts. While activations of concepts slightly change between adapted and non-adapted models, we find that the majority of gains on common adaptation tasks can be explained with the existing concepts already present in the non-adapted foundation model. This work provides a concrete framework to train and use SAEs for Vision Transformers and provides insights into explaining adaptation mechanisms.

arxiv情報

著者 Hyesu Lim,Jinho Choi,Jaegul Choo,Steffen Schneider
発行日 2024-12-06 18:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク