A technical note on bilinear layers for interpretability

要約

タイトル:解釈性のためのバイリニア層に関する技術的ノート

要約:
– ニューラルネットワークにおいて、ニューロンよりも多くの特徴を表現する能力があるため、解釈性を向上させることが困難であるとされている。
– この現象は、スーパーポジションとして知られ、要素単位の活性化関数を持つ標準的な多層パーセプトロン(MLP)よりも解釈性の高いアーキテクチャを見つけることを促してきた。
– このノートでは、数学的に解析が容易であり、通常のMLPよりも良い性能を発揮するMLP層の一種であるバイリニア層を調査する。
– バイリニア層は、入力に対して非線形な関数であるが、線形演算と3次のテンソルだけで表現できることを示す。
– この表現をアテンション限定のトランスフォーマーシステムの数学的枠組みに統合することができる。
– これらの結果は、現在のアーキテクチャよりも数学的に分析が容易であることを示しており、ニューラルネットワーク内の回路についてより形式的な話し合いを可能にすることで、より深い安全性洞察を提供できる可能性があることを示唆している。
– 加えて、バイリニア層は、大きなモデルにおいて(指数関数的に大量になる可能性がある)特徴量の列挙ではなく特徴量構築の機構を理解することを通じて、機械的な解釈性につながる可能性がある。

要約(オリジナル)

The ability of neural networks to represent more features than neurons makes interpreting them challenging. This phenomenon, known as superposition, has spurred efforts to find architectures that are more interpretable than standard multilayer perceptrons (MLPs) with elementwise activation functions. In this note, I examine bilinear layers, which are a type of MLP layer that are mathematically much easier to analyze while simultaneously performing better than standard MLPs. Although they are nonlinear functions of their input, I demonstrate that bilinear layers can be expressed using only linear operations and third order tensors. We can integrate this expression for bilinear layers into a mathematical framework for transformer circuits, which was previously limited to attention-only transformers. These results suggest that bilinear layers are easier to analyze mathematically than current architectures and thus may lend themselves to deeper safety insights by allowing us to talk more formally about circuits in neural networks. Additionally, bilinear layers may offer an alternative path for mechanistic interpretability through understanding the mechanisms of feature construction instead of enumerating a (potentially exponentially) large number of features in large models.

arxiv情報

著者 Lee Sharkey
発行日 2023-05-05 11:56:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.NE パーマリンク