Evaluating Explanations: An Explanatory Virtues Framework for Mechanistic Interpretability — The Strange Science Part I.ii

要約

機械論的解釈可能性(MI)は、因果関係の説明を通じて神経回路網を理解することを目的としている。MIには多くの説明生成手法があるが、説明を評価する普遍的なアプローチがないため、進歩は限られている。ここでは、「良い説明とは何か」という基本的な問いを分析する。MIにおける説明を体系的に評価し改善するために、科学哲学の4つの視点-ベイズ的、クーニア的、ドイチュ的、ノモロジカル的-を活用した多元的説明の美徳フレームワークを紹介する。コンパクト証明は多くの説明の美徳を考慮するものであり、有望なアプローチである。我々の枠組みが示唆する有益な研究の方向性には、(1)説明の単純さを明確に定義すること、(2)説明を統一することに焦点を当てること、(3)ニューラルネットワークの普遍的原理を導き出すこと、が含まれる。改善されたMI手法は、AIシステムを監視、予測、操縦する我々の能力を向上させる。

要約(オリジナル)

Mechanistic Interpretability (MI) aims to understand neural networks through causal explanations. Though MI has many explanation-generating methods, progress has been limited by the lack of a universal approach to evaluating explanations. Here we analyse the fundamental question ‘What makes a good explanation?’ We introduce a pluralist Explanatory Virtues Framework drawing on four perspectives from the Philosophy of Science – the Bayesian, Kuhnian, Deutschian, and Nomological – to systematically evaluate and improve explanations in MI. We find that Compact Proofs consider many explanatory virtues and are hence a promising approach. Fruitful research directions implied by our framework include (1) clearly defining explanatory simplicity, (2) focusing on unifying explanations and (3) deriving universal principles for neural networks. Improved MI methods enhance our ability to monitor, predict, and steer AI systems.

arxiv情報

著者 Kola Ayonrinde,Louis Jaburi
発行日 2025-05-02 16:18:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG パーマリンク