Recurrent Neural Networks Learn to Store and Generate Sequences using Non-Linear Representations

要約

線形表現仮説 (LRH) は、ニューラル ネットワークが活性化空間内の方向として概念をエンコードすることを学習すると述べており、LRH の強力なバージョンでは、モデルはそのようなエンコードのみを学習すると述べています。
この論文では、この強力な LRH に対する反例を示します。入力トークン シーケンスを繰り返すようにトレーニングすると、ゲート制御リカレント ニューラル ネットワーク (RNN) は、方向ではなく特定の大きさで各位置のトークンを表すことを学習します。
これらの表現には、個別の線形部分空間内に位置を特定することが不可能な階層化された特徴があります。
これを示すために、各シーケンス位置に対応するスケーリング係数を学習することでトークンを予測および操作する介入をトレーニングします。
これらの介入は、最小の RNN はこの大きさに基づく解のみを見つけるのに対し、より大きな RNN は線形表現を持つことを示しています。
これらの発見は、解釈可能性の研究が LRH によって制限されるべきではないことを強く示しています。

要約(オリジナル)

The Linear Representation Hypothesis (LRH) states that neural networks learn to encode concepts as directions in activation space, and a strong version of the LRH states that models learn only such encodings. In this paper, we present a counterexample to this strong LRH: when trained to repeat an input token sequence, gated recurrent neural networks (RNNs) learn to represent the token at each position with a particular order of magnitude, rather than a direction. These representations have layered features that are impossible to locate in distinct linear subspaces. To show this, we train interventions to predict and manipulate tokens by learning the scaling factor corresponding to each sequence position. These interventions indicate that the smallest RNNs find only this magnitude-based solution, while larger RNNs have linear representations. These findings strongly indicate that interpretability research should not be confined by the LRH.

arxiv情報

著者 Róbert Csordás,Christopher Potts,Christopher D. Manning,Atticus Geiger
発行日 2024-08-20 15:04:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE パーマリンク