要約
インタープリタビリティは、ニューラルネットワークがどのように、そしてなぜ特定の行動をとるのかを理解するためのツールセットを提供する。しかし、この分野には統一性がほとんどない。ほとんどの研究がアドホックな評価を採用しており、理論的基盤を共有していないため、進歩を測定したり、異なる手法の長所と短所を比較したりすることが難しい。さらに、メカニズム的な理解が頻繁に議論される一方で、これらのメカニズムの根底にある基本的な因果関係単位が明確に定義されていないことも多い。本論文では、因果媒介分析に基づいた解釈可能性研究の視点を提案する。具体的には、解釈可能性の歴史と現状を、採用される因果単位(メディエータ)の種類によって分類し、メディエータを探索するために使用される方法を説明する。それぞれのメディエーターの長所と短所を議論し、ある研究の目的に応じて、特定の種類のメディエーターと探索方法がいつ最も適切であるかについての洞察を提供する。我々は、このような枠組みが、将来の研究のための実用的な洞察と同様に、フィールドのよりまとまりのある物語をもたらすことを主張する。具体的には、人間の解釈可能性と計算効率のトレードオフを改善し、現在の研究で採用されている主に線形のメディエーターよりも、より洗練された抽象化をニューラルネットワークから発見できる新しいメディエーターの発見に焦点を当てることを推奨する。また、メディエータの種類を超えた原理的な比較を可能にする、より標準化された評価も必要であり、特定の因果ユニットが特定のユースケースにより適しているときをより理解できるようにする。
要約(オリジナル)
Interpretability provides a toolset for understanding how and why neural networks behave in certain ways. However, there is little unity in the field: most studies employ ad-hoc evaluations and do not share theoretical foundations, making it difficult to measure progress and compare the pros and cons of different techniques. Furthermore, while mechanistic understanding is frequently discussed, the basic causal units underlying these mechanisms are often not explicitly defined. In this paper, we propose a perspective on interpretability research grounded in causal mediation analysis. Specifically, we describe the history and current state of interpretability taxonomized according to the types of causal units (mediators) employed, as well as methods used to search over mediators. We discuss the pros and cons of each mediator, providing insights as to when particular kinds of mediators and search methods are most appropriate depending on the goals of a given study. We argue that this framing yields a more cohesive narrative of the field, as well as actionable insights for future work. Specifically, we recommend a focus on discovering new mediators with better trade-offs between human-interpretability and compute-efficiency, and which can uncover more sophisticated abstractions from neural networks than the primarily linear mediators employed in current work. We also argue for more standardized evaluations that enable principled comparisons across mediator types, such that we can better understand when particular causal units are better suited to particular use cases.
arxiv情報
著者 | Aaron Mueller,Jannik Brinkmann,Millicent Li,Samuel Marks,Koyena Pal,Nikhil Prakash,Can Rager,Aruna Sankaranarayanan,Arnab Sen Sharma,Jiuding Sun,Eric Todd,David Bau,Yonatan Belinkov |
発行日 | 2024-08-02 17:51:42+00:00 |
arxivサイト | arxiv_id(pdf) |