Modular Training of Neural Networks aids Interpretability

要約

ニューラルネットワークの解釈可能性を向上させるアプローチとして、クラスタビリティ、すなわち、モデルを独立して研究可能な不連続なクラスタに分割する方法がある。我々はクラスタビリティの尺度を定義し、事前に訓練されたモデルがスペクトルグラフのクラスタリングによって非常にかみ合ったクラスタを形成することを示す。そこで、非相互作用のクラスタ形成を促す「クラスタビリティ損失」関数を用いて、モデルをよりモジュール化するように訓練する。自動化された解釈可能性技術を用いて、我々の手法が、よりモジュール化され、異なる、分離した、より小さな回路を学習するモデルの学習に役立つことを示す。我々は、MNISTとCIFARで訓練されたCNN、モジュラー加算で訓練された小さな変換器、そして言語モデルを調査する。我々のアプローチは、より単純な機能を学習し、解釈しやすいニューラルネットワークを訓練するための有望な方向性を提供する。

要約(オリジナル)

An approach to improve neural network interpretability is via clusterability, i.e., splitting a model into disjoint clusters that can be studied independently. We define a measure for clusterability and show that pre-trained models form highly enmeshed clusters via spectral graph clustering. We thus train models to be more modular using a “clusterability loss” function that encourages the formation of non-interacting clusters. Using automated interpretability techniques, we show that our method can help train models that are more modular and learn different, disjoint, and smaller circuits. We investigate CNNs trained on MNIST and CIFAR, small transformers trained on modular addition, and language models. Our approach provides a promising direction for training neural networks that learn simpler functions and are easier to interpret.

arxiv情報

著者 Satvik Golechha,Maheep Chaudhary,Joan Velja,Alessandro Abate,Nandi Schoots
発行日 2025-02-04 16:44:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク