要約
解釈可能性における普遍性の仮説は、異なるニューラル ネットワークが収束して、同様のタスクに対して同様のアルゴリズムを実装する可能性があることを示唆しています。
この研究では、言語モデリングの 2 つの主流アーキテクチャ、つまり Transformers と Mambas を調査し、それらのメカニズムの類似性の範囲を調査します。
私たちは、Sparse Autoencoder (SAE) を使用して、これらのモデルから解釈可能な特徴を分離し、これら 2 つのモデルでほとんどの特徴が類似していることを示すことを提案します。
また、特徴の類似性と普遍性の間の相関関係も検証します。
次に、Mamba モデルの回路レベルの解析を詳しく調べ、Mamba の誘導回路がトランスフォーマーの誘導回路と構造的に類似していることを発見しました。
また、 \emph{Off-by-One モチーフ} と呼ぶ微妙な違いも特定します。つまり、1 つのトークンの情報が、SSM 状態の次の位置に書き込まれます。
一方、トランスフォーマーのトークン間の相互作用にはそのような傾向は見られません。
要約(オリジナル)
The hypothesis of Universality in interpretability suggests that different neural networks may converge to implement similar algorithms on similar tasks. In this work, we investigate two mainstream architectures for language modeling, namely Transformers and Mambas, to explore the extent of their mechanistic similarity. We propose to use Sparse Autoencoders (SAEs) to isolate interpretable features from these models and show that most features are similar in these two models. We also validate the correlation between feature similarity and Universality. We then delve into the circuit-level analysis of Mamba models and find that the induction circuits in Mamba are structurally analogous to those in Transformers. We also identify a nuanced difference we call \emph{Off-by-One motif}: The information of one token is written into the SSM state in its next position. Whilst interaction between tokens in Transformers does not exhibit such trend.
arxiv情報
著者 | Junxuan Wang,Xuyang Ge,Wentao Shu,Qiong Tang,Yunhua Zhou,Zhengfu He,Xipeng Qiu |
発行日 | 2024-10-10 16:51:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google