要約
スパース自動エンコーダー(SAE)は、モデルの潜在空間の分解を学ぶための監視されていないアプローチとして提案されています。
これにより、ラベル付きデータを必要とせずに、ステアリングなどの有用なアプリケーションが、モデルの出力に目的の概念に影響を与えることを可能にします。
現在の方法では、それらをアクティブ化する入力トークンを分析することにより、SAE機能を操作する機能を識別します。
ただし、最近の研究では、アクティベーションだけでは、モデルの出力に対する機能の効果を完全に説明していないことが強調されています。
この作業では、主にモデルの入力にパターンをキャプチャする入力機能と、モデルの出力に人間が理解できる効果を持つ出力機能の2つのタイプの機能を区別します。
これらのタイプの機能を特徴付けて特定するために、入力スコアと出力スコアを提案し、両方のスコアの高い値が同じ機能でめったに共存しないことを示します。
これらの発見には実際的な意味があります。出力スコアが低い機能を除外した後、SAEを操縦するときに2〜3倍の改善を獲得し、監視された方法と競争します。
要約(オリジナル)
Sparse Autoencoders (SAEs) have been proposed as an unsupervised approach to learn a decomposition of a model’s latent space. This enables useful applications such as steering – influencing the output of a model towards a desired concept – without requiring labeled data. Current methods identify SAE features to steer by analyzing the input tokens that activate them. However, recent work has highlighted that activations alone do not fully describe the effect of a feature on the model’s output. In this work, we draw a distinction between two types of features: input features, which mainly capture patterns in the model’s input, and output features, which have a human-understandable effect on the model’s output. We propose input and output scores to characterize and locate these types of features, and show that high values for both scores rarely co-occur in the same features. These findings have practical implications: after filtering out features with low output scores, we obtain 2-3x improvements when steering with SAEs, making them competitive with supervised methods.
arxiv情報
著者 | Dana Arad,Aaron Mueller,Yonatan Belinkov |
発行日 | 2025-05-26 14:47:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google