A Mathematical Philosophy of Explanations in Mechanistic Interpretability — The Strange Science Part I.i

要約

力学的解釈可能性は、因果的説明を通してニューラルネットワークを理解することを目的としている。メカニズム的解釈可能性研究は、モデルを理解するための原則的なアプローチである、という仮説である。そのため、説明がモデルにどの程度適合しているかの評価である「説明の忠実性」が明確に定義されていることを示す。我々は、機械論的解釈可能性(Mechanistic Interpretability:MI)の定義を、神経回路網のモデルレベル、存在論的、因果機械論的、反証可能な説明を生成する実践として提案し、MIを他の解釈可能性パラダイムと区別し、MI固有の限界を詳述する。また、機械論的解釈可能性の成功に必要な前提条件であると主張する「説明楽観主義の原理」を定式化する。

要約(オリジナル)

Mechanistic Interpretability aims to understand neural networks through causal explanations. We argue for the Explanatory View Hypothesis: that Mechanistic Interpretability research is a principled approach to understanding models because neural networks contain implicit explanations which can be extracted and understood. We hence show that Explanatory Faithfulness, an assessment of how well an explanation fits a model, is well-defined. We propose a definition of Mechanistic Interpretability (MI) as the practice of producing Model-level, Ontic, Causal-Mechanistic, and Falsifiable explanations of neural networks, allowing us to distinguish MI from other interpretability paradigms and detail MI’s inherent limits. We formulate the Principle of Explanatory Optimism, a conjecture which we argue is a necessary precondition for the success of Mechanistic Interpretability.

arxiv情報

著者 Kola Ayonrinde,Louis Jaburi
発行日 2025-05-01 19:08:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク