要約
スパース自動エンコーダー(SAE)は、多言語ニューロンの複雑な重ね合わせを単語諸島の特徴にマッピングし、単語のまばらな辞書を構成することにより、大規模な言語モデル(LLM)の解釈可能性を改善するための有望なツールとして多くの注目を集めています。
ただし、平均四角エラーやL0スパースのような従来のパフォーマンスメトリックは、SAEのセマンティックな表現力の評価を無視します – 単語の意味関係を維持しながら、解釈可能な単一大量の特徴を獲得できるかどうか。
たとえば、学習したスパース機能が1つの単語で異なる意味を区別できるかどうかは明らかではありません。
この論文では、Polysemousの単語に焦点を当てることにより、SAEが単調な特徴の品質を分析するための一連の評価を提案します。
私たちの発見は、MSE-L0パレートフロンティアを改善するために開発されたSAEが解釈可能性を混乱させる可能性があることを明らかにしています。
Polysemousの単語を使用したSAEの分析は、LLMの内部メカニズムも把握できます。
より深いレイヤーと注意モジュールは、単語での識別ポリセミーの貢献に貢献します。
私たちのセマンティクスに焦点を当てた評価は、多義性と既存のSAEの目的に関する新しい洞察を提供し、より実用的なSAEの開発に貢献しています。
要約(オリジナル)
Sparse autoencoders (SAEs) have gained a lot of attention as a promising tool to improve the interpretability of large language models (LLMs) by mapping the complex superposition of polysemantic neurons into monosemantic features and composing a sparse dictionary of words. However, traditional performance metrics like Mean Squared Error and L0 sparsity ignore the evaluation of the semantic representational power of SAEs — whether they can acquire interpretable monosemantic features while preserving the semantic relationship of words. For instance, it is not obvious whether a learned sparse feature could distinguish different meanings in one word. In this paper, we propose a suite of evaluations for SAEs to analyze the quality of monosemantic features by focusing on polysemous words. Our findings reveal that SAEs developed to improve the MSE-L0 Pareto frontier may confuse interpretability, which does not necessarily enhance the extraction of monosemantic features. The analysis of SAEs with polysemous words can also figure out the internal mechanism of LLMs; deeper layers and the Attention module contribute to distinguishing polysemy in a word. Our semantics focused evaluation offers new insights into the polysemy and the existing SAE objective and contributes to the development of more practical SAEs.
arxiv情報
著者 | Gouki Minegishi,Hiroki Furuta,Yusuke Iwasawa,Yutaka Matsuo |
発行日 | 2025-02-18 17:10:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google