Seeing is Believing: Brain-Inspired Modular Training for Mechanistic Interpretability

要約

ニューラル ネットワークをよりモジュール化して解釈可能にする方法である Brain-Inspired Modular Training (BIMT) を紹介します。
脳にヒントを得た BIMT は、幾何学的空間にニューロンを埋め込み、各ニューロン接続の長さに比例するコストで損失関数を増強します。
私たちは、BIMT が多くの単純なタスクに有用なモジュール型ニューラル ネットワークを発見し、記号式の構成構造、分類のための解釈可能な決定境界と特徴、アルゴリズム データセットの数学的構造を明らかにすることを実証します。
肉眼でモジュールを直接見る機能は、プローブ、介入、またはすべての重量の観察などの現在の機構的解釈可能性戦略を補完できます。

要約(オリジナル)

We introduce Brain-Inspired Modular Training (BIMT), a method for making neural networks more modular and interpretable. Inspired by brains, BIMT embeds neurons in a geometric space and augments the loss function with a cost proportional to the length of each neuron connection. We demonstrate that BIMT discovers useful modular neural networks for many simple tasks, revealing compositional structures in symbolic formulas, interpretable decision boundaries and features for classification, and mathematical structure in algorithmic datasets. The ability to directly see modules with the naked eye can complement current mechanistic interpretability strategies such as probes, interventions or staring at all weights.

arxiv情報

著者 Ziming Liu,Eric Gan,Max Tegmark
発行日 2023-06-06 16:11:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.AI, cs.LG, cs.NE, math.RT, q-bio.NC パーマリンク