Locating Factual Knowledge in Large Language Models: Exploring the Residual Stream and Analyzing Subvalues in Vocabulary Space


さらに、内積を計算して、フィードフォワード ネットワーク (FFN) サブ値が前の層によってどの程度アクティブ化されるかを評価します。
私たちの方法に基づいて、事実の知識 <フランス、首都、パリ> が保存されている場所を見つけます。
FFN レイヤーには、「パリは首都/都市」が格納され、「首都」に関連するアテンション サブ値によってアクティブ化されます。
Baevski-18、GPT2 培地、Llama-7B、および Llama-13B に対してこのメ​​ソッドを活用します。


We find the location of factual knowledge in large language models by exploring the residual stream and analyzing subvalues in vocabulary space. We find the reason why subvalues have human-interpretable concepts when projecting into vocabulary space. The before-softmax values of subvalues are added by an addition function, thus the probability of top tokens in vocabulary space will increase. Based on this, we find using log probability increase to compute the significance of layers and subvalues is better than probability increase, since the curve of log probability increase has a linear monotonically increasing shape. Moreover, we calculate the inner products to evaluate how much a feed-forward network (FFN) subvalue is activated by previous layers. Base on our methods, we find where factual knowledge is stored. Specifically, attention layers store ‘Paris is related to France’. FFN layers store ‘Paris is a capital/city’, activated by attention subvalues related to ‘capital’. We leverage our method on Baevski-18, GPT2 medium, Llama-7B and Llama-13B. Overall, we provide a new method for understanding the mechanism of transformers. We will release our code on github.


著者 Zeping Yu,Sophia Ananiadou
発行日 2024-01-30 12:19:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク