要約
自動化された解釈可能性の研究は、モデル行動の人間の理解を高めるために、ニューラルネットワーク機能にエンコードされた概念を特定することを目的としています。
現在の特徴の説明方法は、2つの重要な課題に直面しています。限られた堅牢性と、各ニューロンは、しばしばポリスマンであるという証拠が高まっているにもかかわらず、各ニューロンが単一の概念(単量体)のみをエンコードするという欠陥のある仮定です。
この仮定は、機能の説明の表現力を制限し、モデルの内部でエンコードされたすべての動作をキャプチャする能力を制限します。
これに対処するために、ニューラルネットワーク機能の固有の複雑さを捉える新しいフレームワークであるPolysemantic Feature Identification and Scoring Method(Prism)を紹介します。
機能ごとに単一の説明を割り当てる以前のアプローチとは異なり、Prismは、ポリマンティックおよびモノセマンティックの両方の機能に対して、より微妙な説明を提供します。
私たちは言語モデルにプリズムを適用し、既存の方法に対する広範なベンチマークを通じて、私たちのアプローチがより正確で忠実な特徴の説明を生成し、全体的な説明の品質(説明スコアを介して)と、多衰弱性が存在するとき(多分子性スコアを介して)異なる概念をキャプチャする機能の両方を改善することを示しています。
要約(オリジナル)
Automated interpretability research aims to identify concepts encoded in neural network features to enhance human understanding of model behavior. Current feature description methods face two critical challenges: limited robustness and the flawed assumption that each neuron encodes only a single concept (monosemanticity), despite growing evidence that neurons are often polysemantic. This assumption restricts the expressiveness of feature descriptions and limits their ability to capture the full range of behaviors encoded in model internals. To address this, we introduce Polysemantic FeatuRe Identification and Scoring Method (PRISM), a novel framework that captures the inherent complexity of neural network features. Unlike prior approaches that assign a single description per feature, PRISM provides more nuanced descriptions for both polysemantic and monosemantic features. We apply PRISM to language models and, through extensive benchmarking against existing methods, demonstrate that our approach produces more accurate and faithful feature descriptions, improving both overall description quality (via a description score) and the ability to capture distinct concepts when polysemanticity is present (via a polysemanticity score).
arxiv情報
著者 | Laura Kopf,Nils Feldhus,Kirill Bykov,Philine Lou Bommer,Anna Hedström,Marina M. -C. Höhne,Oliver Eberle |
発行日 | 2025-06-18 15:13:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google