RAVEL: Evaluating Interpretability Methods on Disentangling Language Model Representations

要約

個々のニューロンは、複数の高レベルの概念の表現に参加します。
さまざまな解釈可能性手法により、これらの役割のもつれをどの程度までうまく解消できるでしょうか?
この疑問に対処するために、さまざまな既存の解釈可能性手法間の厳密に制御された定量的な比較を可能にするデータセットである RAVEL (Resolve Attribute-Value Entanglements in Language Models) を紹介します。
結果として得られた概念フレームワークを使用して、マルチタスク分散アライメント検索 (MDAS) の新しい方法を定義します。これにより、複数の因果基準を満たす分散表現を見つけることができます。
Llama2-7B をターゲット言語モデルとして使用することで、MDAS は RAVEL で最先端の結果を達成し、ニューロンレベルの分析を超えてアクティベーション全体に分散された特徴を特定することの重要性を実証しました。
ベンチマークは https://github.com/explanare/ravel でリリースされています。

要約(オリジナル)

Individual neurons participate in the representation of multiple high-level concepts. To what extent can different interpretability methods successfully disentangle these roles? To help address this question, we introduce RAVEL (Resolving Attribute-Value Entanglements in Language Models), a dataset that enables tightly controlled, quantitative comparisons between a variety of existing interpretability methods. We use the resulting conceptual framework to define the new method of Multi-task Distributed Alignment Search (MDAS), which allows us to find distributed representations satisfying multiple causal criteria. With Llama2-7B as the target language model, MDAS achieves state-of-the-art results on RAVEL, demonstrating the importance of going beyond neuron-level analyses to identify features distributed across activations. We release our benchmark at https://github.com/explanare/ravel.

arxiv情報

著者 Jing Huang,Zhengxuan Wu,Christopher Potts,Mor Geva,Atticus Geiger
発行日 2024-02-27 17:25:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク