Generalizing Backpropagation for Gradient-Based Interpretability

要約

ディープ ニューラル ネットワークを解釈するための一般的な特徴帰属手法の多くは、入力に対するモデルの出力の勾配の計算に依存しています。
これらの方法は、どの入力特徴がモデルの予測にとって重要であるかを示すことができますが、モデル自体の内部の仕組みについてはほとんど明らかにしません。
この論文では、モデルの勾配計算が、セミリングを使用したより一般的な定式化の特殊なケースであることを観察します。
この観察により、バックプロパゲーション アルゴリズムを一般化して、最も重みの高いパスやエントロピーなど、ニューラル ネットワークの勾配グラフに関する他の解釈可能な統計を効率的に計算できるようになります。
この一般化されたアルゴリズムを実装し、合成データセットで評価して、計算される統計をより深く理解し、主語と動詞の数一致タスク (SVA) における BERT の動作を研究するために適用します。
この方法では、(a) モデルのコンポーネントを通過する勾配流の量が予測に対するその重要性を反映していることを検証し、(b) SVA については、自己注意メカニズムのどの経路が最も重要であるかを特定します。

要約(オリジナル)

Many popular feature-attribution methods for interpreting deep neural networks rely on computing the gradients of a model’s output with respect to its inputs. While these methods can indicate which input features may be important for the model’s prediction, they reveal little about the inner workings of the model itself. In this paper, we observe that the gradient computation of a model is a special case of a more general formulation using semirings. This observation allows us to generalize the backpropagation algorithm to efficiently compute other interpretable statistics about the gradient graph of a neural network, such as the highest-weighted path and entropy. We implement this generalized algorithm, evaluate it on synthetic datasets to better understand the statistics it computes, and apply it to study BERT’s behavior on the subject-verb number agreement task (SVA). With this method, we (a) validate that the amount of gradient flow through a component of a model reflects its importance to a prediction and (b) for SVA, identify which pathways of the self-attention mechanism are most important.

arxiv情報

著者 Kevin Du,Lucas Torroba Hennigen,Niklas Stoehr,Alexander Warstadt,Ryan Cotterell
発行日 2023-07-06 15:19:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク