From Neurons to Neutrons: A Case Study in Interpretability

要約

Mechanistic Interpretability (MI) は、ニューラル ネットワークがどのように予測を行うかを完全に理解するための道を約束します。
これまでの研究では、単純な演算を実行するようにトレーニングされた場合でも、モデルは初期化とハイパーパラメーターに応じてさまざまなアルゴリズムを (場合によっては同時に) 実装できることが実証されています。
これは、ニューロンレベルの解釈技術の適用範囲が限られていることを意味するのでしょうか?
私たちは、高次元ニューラル ネットワークは、単に適切な予測を行う以上に有用なトレーニング データの低次元表現を学習できると主張します。
このような表現は、機械的な解釈可能性のレンズを通して理解することができ、人間由来のドメイン知識に驚くほど忠実な洞察を提供します。
これは、解釈可能性に対するこのようなアプローチが、問題を解決するために訓練されたモデルから問題の新しい理解を導き出すのに役立つ可能性があることを示しています。
ケーススタディとして、核データを再現するように訓練されたモデルを研究することによって核物理学の概念を抽出します。

要約(オリジナル)

Mechanistic Interpretability (MI) promises a path toward fully understanding how neural networks make their predictions. Prior work demonstrates that even when trained to perform simple arithmetic, models can implement a variety of algorithms (sometimes concurrently) depending on initialization and hyperparameters. Does this mean neuron-level interpretability techniques have limited applicability? We argue that high-dimensional neural networks can learn low-dimensional representations of their training data that are useful beyond simply making good predictions. Such representations can be understood through the mechanistic interpretability lens and provide insights that are surprisingly faithful to human-derived domain knowledge. This indicates that such approaches to interpretability can be useful for deriving a new understanding of a problem from models trained to solve it. As a case study, we extract nuclear physics concepts by studying models trained to reproduce nuclear data.

arxiv情報

著者 Ouail Kitouni,Niklas Nolte,Víctor Samuel Pérez-Díaz,Sokratis Trifinopoulos,Mike Williams
発行日 2024-05-27 17:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, nucl-th パーマリンク