要約
スパース オートエンコーダ (SAE) は、大規模言語モデル (LLM) の活性化を人間が解釈可能な潜在力に分解するための有望なアプローチとして登場しました。
この論文では、2 つの疑問を提起します。
まず、SAE は単一意味論的で解釈可能な潜在性をどの程度抽出するのでしょうか?
第二に、SAE のスパース性またはサイズの変化は、単一意味性 / 解釈可能性にどの程度影響しますか?
語彙内のすべてのトークンのグラウンド トゥルース ラベルに完全にアクセスできる、単純な最初の文字の識別タスクのコンテキストでこれらの質問を調査することにより、以前の調査よりも詳細な情報を提供することができます。
重要なことに、私たちは特徴吸収と呼ばれる問題のある形式の特徴分割を特定しました。これは、一見単一意味の潜在要素が、明らかに発火すべき場合に発火しないというものです。
私たちの調査では、SAE のサイズや疎性を変えるだけではこの問題を解決するには不十分であり、解決が必要なさらに深い概念的問題があることが示唆されています。
要約(オリジナル)
Sparse Autoencoders (SAEs) have emerged as a promising approach to decompose the activations of Large Language Models (LLMs) into human-interpretable latents. In this paper, we pose two questions. First, to what extent do SAEs extract monosemantic and interpretable latents? Second, to what extent does varying the sparsity or the size of the SAE affect monosemanticity / interpretability? By investigating these questions in the context of a simple first-letter identification task where we have complete access to ground truth labels for all tokens in the vocabulary, we are able to provide more detail than prior investigations. Critically, we identify a problematic form of feature-splitting we call feature absorption where seemingly monosemantic latents fail to fire in cases where they clearly should. Our investigation suggests that varying SAE size or sparsity is insufficient to solve this issue, and that there are deeper conceptual issues in need of resolution.
arxiv情報
著者 | David Chanin,James Wilken-Smith,Tomáš Dulka,Hardik Bhatnagar,Joseph Bloom |
発行日 | 2024-09-25 15:50:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google