Locating Factual Knowledge in Large Language Models: Exploring the Residual Stream and Analyzing Subvalues in Vocabulary Space

要約

残差ストリームを探索し、語彙空間内の部分値を分析することにより、大規模な言語モデルにおける事実知識の位置を見つけます。
語彙空間に投影するときに、部分値が人間によって解釈可能な概念を持つ理由がわかります。
サブ値のソフトマックス前の値は加算関数によって加算されるため、語彙空間内の上位トークンの確率が増加します。
これに基づいて、対数確率増加の曲線は線形単調増加の形状をしているため、層と部分値の重要性を計算するために対数確率増加を使用する方が確率増加よりも優れていることがわかります。
さらに、内積を計算して、フィードフォワード ネットワーク (FFN) サブ値が前の層によってどの程度アクティブ化されるかを評価します。
私たちの方法に基づいて、事実の知識 <フランス、首都、パリ> が保存されている場所を見つけます。
具体的には、注目層は「パリはフランスに関連している」と保存します。
FFN レイヤーには、「パリは首都/都市」が格納され、「首都」に関連するアテンション サブ値によってアクティブ化されます。
Baevski-18、GPT2 培地、Llama-7B、および Llama-13B に対してこのメ​​ソッドを活用します。
全体として、変圧器のメカニズムを理解するための新しい方法を提供します。
コードをgithubで公開する予定です。

要約(オリジナル)

We find the location of factual knowledge in large language models by exploring the residual stream and analyzing subvalues in vocabulary space. We find the reason why subvalues have human-interpretable concepts when projecting into vocabulary space. The before-softmax values of subvalues are added by an addition function, thus the probability of top tokens in vocabulary space will increase. Based on this, we find using log probability increase to compute the significance of layers and subvalues is better than probability increase, since the curve of log probability increase has a linear monotonically increasing shape. Moreover, we calculate the inner products to evaluate how much a feed-forward network (FFN) subvalue is activated by previous layers. Base on our methods, we find where factual knowledge is stored. Specifically, attention layers store ‘Paris is related to France’. FFN layers store ‘Paris is a capital/city’, activated by attention subvalues related to ‘capital’. We leverage our method on Baevski-18, GPT2 medium, Llama-7B and Llama-13B. Overall, we provide a new method for understanding the mechanism of transformers. We will release our code on github.

arxiv情報

著者 Zeping Yu,Sophia Ananiadou
発行日 2024-01-30 12:19:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク