A Function Interpretation Benchmark for Evaluating Interpretability Methods

要約

人間が判読できる説明でニューラル ネットワーク サブモジュールにラベルを付けることは、多くの下流タスクに役立ちます。そのような説明は、障害を表面化し、介入を導き、場合によっては重要なモデルの動作を説明することさえできます。
これまで、訓練されたネットワークの機構的記述のほとんどには、小さなモデル、狭く区切られた現象、および大量の人的労働が関係していました。
サイズと複雑さが増大するモデルにおいて、人間が解釈できるすべての部分計算にラベルを付けるには、記述を自動的に生成および検証できるツールがほぼ確実に必要になります。
最近、学習済みモデルをインザループでラベル付けに使用する手法が注目を集め始めていますが、その有効性を評価する方法は限られており、その場限りです。
オープンエンドのラベル付けツールをどのように検証して比較すればよいでしょうか?
このペーパーでは、自動解釈手法の構成要素を評価するためのベンチマーク スイートである FIND (Function INterpretation and description) を紹介します。
FIND には、訓練されたニューラル ネットワークのコンポーネントに似た関数と、生成しようとしている種類の付随する記述が含まれています。
関数はテキスト領域と数値領域にわたって手続き的に構築され、ノイズ、合成、近似、バイアスなど、現実世界のさまざまな複雑さが含まれます。
私たちは、言語モデル (LM) を使用して、関数の動作をコードベースで言語で記述した新しいメソッドと既存のメソッドを評価します。
関数へのブラックボックスアクセスのみを強化した既製の LM は、仮説を立て、実験を提案し、新しいデータに基づいて説明を更新することで科学者として機能し、関数の構造を推論できる場合があることがわかりました。
ただし、LM ベースの記述では、グローバルな関数の動作がキャプチャされ、ローカルな破損が見逃される傾向があります。
これらの結果は、FIND が、現実世界のモデルに適用される前に、より洗練された解釈可能性手法のパフォーマンスを特徴付けるのに役立つことを示しています。

要約(オリジナル)

Labeling neural network submodules with human-legible descriptions is useful for many downstream tasks: such descriptions can surface failures, guide interventions, and perhaps even explain important model behaviors. To date, most mechanistic descriptions of trained networks have involved small models, narrowly delimited phenomena, and large amounts of human labor. Labeling all human-interpretable sub-computations in models of increasing size and complexity will almost certainly require tools that can generate and validate descriptions automatically. Recently, techniques that use learned models in-the-loop for labeling have begun to gain traction, but methods for evaluating their efficacy are limited and ad-hoc. How should we validate and compare open-ended labeling tools? This paper introduces FIND (Function INterpretation and Description), a benchmark suite for evaluating the building blocks of automated interpretability methods. FIND contains functions that resemble components of trained neural networks, and accompanying descriptions of the kind we seek to generate. The functions are procedurally constructed across textual and numeric domains, and involve a range of real-world complexities, including noise, composition, approximation, and bias. We evaluate new and existing methods that use language models (LMs) to produce code-based and language descriptions of function behavior. We find that an off-the-shelf LM augmented with only black-box access to functions can sometimes infer their structure, acting as a scientist by forming hypotheses, proposing experiments, and updating descriptions in light of new data. However, LM-based descriptions tend to capture global function behavior and miss local corruptions. These results show that FIND will be useful for characterizing the performance of more sophisticated interpretability methods before they are applied to real-world models.

arxiv情報

著者 Sarah Schwettmann,Tamar Rott Shaham,Joanna Materzynska,Neil Chowdhury,Shuang Li,Jacob Andreas,David Bau,Antonio Torralba
発行日 2023-09-07 17:47:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク