MIB: A Mechanistic Interpretability Benchmark

要約

新しい機械的解釈可能性の方法が実際の改善を達成するかどうかをどのように知ることができますか?
意味のある永続的な評価基準を追求するために、4つのタスクと5つのモデルにまたがる2つのトラックを備えたベンチマークであるMIBを提案します。
MIBは、関連する因果経路または神経言語モデルの特定の因果変数を正確かつ簡潔に回復する方法を好みます。
回路のローカリゼーショントラックは、モデルコンポーネントとそれらの間の接続を特定するメソッドを比較します – タスクを実行するために最も重要(属性パッチングや情報フロールートなど)。
因果変数のローカリゼーショントラックは、隠されたベクトルを特徴とするメソッド、たとえばスパース自動エンコーダー(SAE)または分散アライメント検索(DAS)を比較し、タスクに関連する因果変数のモデル機能を見つけます。
MIBを使用して、アトリビューションとマスクの最適化方法は、回路のローカリゼーションに最適であることがわかります。
因果変数のローカリゼーションでは、監視されたDASメソッドが最適に機能しますが、SAE機能はニューロン、つまり隠されたベクトルの標準寸法よりも優れていないことがわかります。
これらの調査結果は、MIBがメソッドの意味のある比較を可能にし、この分野で実際の進歩があったという自信を高めることを示しています。

要約(オリジナル)

How can we know whether new mechanistic interpretability methods achieve real improvements? In pursuit of meaningful and lasting evaluation standards, we propose MIB, a benchmark with two tracks spanning four tasks and five models. MIB favors methods that precisely and concisely recover relevant causal pathways or specific causal variables in neural language models. The circuit localization track compares methods that locate the model components – and connections between them – most important for performing a task (e.g., attribution patching or information flow routes). The causal variable localization track compares methods that featurize a hidden vector, e.g., sparse autoencoders (SAEs) or distributed alignment search (DAS), and locate model features for a causal variable relevant to the task. Using MIB, we find that attribution and mask optimization methods perform best on circuit localization. For causal variable localization, we find that the supervised DAS method performs best, while SAE features are not better than neurons, i.e., standard dimensions of hidden vectors. These findings illustrate that MIB enables meaningful comparisons of methods, and increases our confidence that there has been real progress in the field.

arxiv情報

著者 Aaron Mueller,Atticus Geiger,Sarah Wiegreffe,Dana Arad,Iván Arcuschin,Adam Belfki,Yik Siu Chan,Jaden Fiotto-Kaufman,Tal Haklay,Michael Hanna,Jing Huang,Rohan Gupta,Yaniv Nikankin,Hadas Orgad,Nikhil Prakash,Anja Reusch,Aruna Sankaranarayanan,Shun Shao,Alessandro Stolfo,Martin Tutek,Amir Zur,David Bau,Yonatan Belinkov
発行日 2025-04-17 17:55:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク