Towards Understanding the Nature of Attention with Low-Rank Sparse Decomposition

要約

私たちは、オリジナルのマルチヘッドセルフ注意(MHSA)を個別に理解できるコンポーネントに解くためのトランスの注意層のまばらな交換モデルである低ランクのまばらな注意(LORSA)を提案します。
Lorsaは、さまざまなトークン位置の特徴間の注意を介した相互作用を理解するために、注意の重ね合わせの課題に対処するように設計されています。
Lorsa Headは、誘導ヘッド、後継者、および注意シンクの行動など、以前に発見されたMHSA行動のクリーナーで細かいバージョンを見つけることを示しています(すなわち、最初のトークンに非常に参加しています)。
LorsaとSparse Autoencoder(SAE)は、どちらも異なる変圧器成分に適用されるスパース辞書学習方法であり、多くの点で一貫した調査結果につながります。
たとえば、それぞれがllama-3.1-8bの原子操作に対応する算術固有のロールサヘッドの包括的なファミリーを発見します。
自動化された解釈可能性分析は、LORSAが解釈可能性のSAEとの平等を達成し、LORSAは特に複数のMHSAヘッドによって集合的に計算された機能について、優れた回路発見特性を示すことを示しています。
また、建築設計アブレーション、ロールサのスケーリング法、エラー分析に関する広範な実験も実施しています。

要約(オリジナル)

We propose Low-Rank Sparse Attention (Lorsa), a sparse replacement model of Transformer attention layers to disentangle original Multi Head Self Attention (MHSA) into individually comprehensible components. Lorsa is designed to address the challenge of attention superposition to understand attention-mediated interaction between features in different token positions. We show that Lorsa heads find cleaner and finer-grained versions of previously discovered MHSA behaviors like induction heads, successor heads and attention sink behavior (i.e., heavily attending to the first token). Lorsa and Sparse Autoencoder (SAE) are both sparse dictionary learning methods applied to different Transformer components, and lead to consistent findings in many ways. For instance, we discover a comprehensive family of arithmetic-specific Lorsa heads, each corresponding to an atomic operation in Llama-3.1-8B. Automated interpretability analysis indicates that Lorsa achieves parity with SAE in interpretability while Lorsa exhibits superior circuit discovery properties, especially for features computed collectively by multiple MHSA heads. We also conduct extensive experiments on architectural design ablation, Lorsa scaling law and error analysis.

arxiv情報

著者 Zhengfu He,Junxuan Wang,Rui Lin,Xuyang Ge,Wentao Shu,Qiong Tang,Junping Zhang,Xipeng Qiu
発行日 2025-04-29 17:03:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク