要約
疎な特徴回路を発見して適用する方法を紹介します。
これらは、言語モデルの動作を説明するための、人間が解釈可能な機能の因果関係が示唆されたサブネットワークです。
以前の研究で特定された回路は、アテンション ヘッドやニューロンなどの多義的で解釈が難しいユニットで構成されているため、多くの下流アプリケーションには適していません。
対照的に、まばらな機能回路により、予期しないメカニズムを詳細に理解することができます。
スパース特徴回路は、きめの細かいユニットに基づいているため、下流のタスクに役立ちます。SHIFT を導入し、人間がタスクに無関係であると判断した特徴を除去することで分類器の一般化を改善します。
最後に、自動的に発見されたモデルの動作に対する数千の疎な特徴回路を発見することにより、完全に教師なしでスケーラブルな解釈可能パイプラインを実証します。
要約(オリジナル)
We introduce methods for discovering and applying sparse feature circuits. These are causally implicated subnetworks of human-interpretable features for explaining language model behaviors. Circuits identified in prior work consist of polysemantic and difficult-to-interpret units like attention heads or neurons, rendering them unsuitable for many downstream applications. In contrast, sparse feature circuits enable detailed understanding of unanticipated mechanisms. Because they are based on fine-grained units, sparse feature circuits are useful for downstream tasks: We introduce SHIFT, where we improve the generalization of a classifier by ablating features that a human judges to be task-irrelevant. Finally, we demonstrate an entirely unsupervised and scalable interpretability pipeline by discovering thousands of sparse feature circuits for automatically discovered model behaviors.
arxiv情報
著者 | Samuel Marks,Can Rager,Eric J. Michaud,Yonatan Belinkov,David Bau,Aaron Mueller |
発行日 | 2024-03-31 16:54:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google