Interpreting Context Look-ups in Transformers: Investigating Attention-MLP Interactions

要約

大規模言語モデル (LLM) の内部動作を理解することは、LLM の理論的基礎と現実世界への応用を前進させるために非常に重要です。
注意メカニズムと多層パーセプトロン (MLP) は独立して研究されていますが、それらの相互作用はほとんど解明されていません。
この研究では、アテンション ヘッドとネクスト トークン ニューロンが LLM 内でどのように相互作用して新しい単語を予測するかを調査します。
私たちは、次のトークンのニューロンを特定し、それらを高度に活性化するプロンプトを見つけて、責任のある上流のアテンションヘッドを決定する方法論を提案します。
次に、これらのアテンションヘッドの活動に関する説明を自動化された方法で生成し、評価します。
私たちの調査結果は、一部のアテンションヘッドがトークンの予測に関連する特定のコンテキストを認識し、それに応じて下流のトークン予測ニューロンを活性化することを明らかにしました。
このメカニズムにより、アテンション ヘッドが MLP ニューロンと連携して次のトークンの予測を実行する方法についての深い理解が得られます。
私たちのアプローチは、LLM の複雑な仕組みと、テキストの生成と理解に対する LLM の影響についてのさらなる研究のための基盤を提供します。

要約(オリジナル)

Understanding the inner workings of large language models (LLMs) is crucial for advancing their theoretical foundations and real-world applications. While the attention mechanism and multi-layer perceptrons (MLPs) have been studied independently, their interactions remain largely unexplored. This study investigates how attention heads and next-token neurons interact in LLMs to predict new words. We propose a methodology to identify next-token neurons, find prompts that highly activate them, and determine the upstream attention heads responsible. We then generate and evaluate explanations for the activity of these attention heads in an automated manner. Our findings reveal that some attention heads recognize specific contexts relevant to predicting a token and activate a downstream token-predicting neuron accordingly. This mechanism provides a deeper understanding of how attention heads work with MLP neurons to perform next-token prediction. Our approach offers a foundation for further research into the intricate workings of LLMs and their impact on text generation and understanding.

arxiv情報

著者 Clement Neo,Shay B. Cohen,Fazl Barez
発行日 2024-10-23 13:20:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク