Dissecting Recall of Factual Associations in Auto-Regressive Language Models

要約

トランスフォーマーベースの言語モデル (LM) は、パラメーターに事実の知識を取り込むことが知られています。
以前の研究では、事実の関連付けがどこに保存されるかを調査しましたが、推論中にそれらが内部的にどのように取得されるかについてはほとんどわかっていません。
私たちは、情報の流れというレンズを通してこの疑問を調査します。
主題と関係のクエリが与えられた場合、モデルが主題と関係に関する情報をどのように集約して正しい属性を予測するかを研究します。
注意エッジへの介入により、まず情報が予測に伝播する 2 つの重要な点を特定します。1 つは関係位置から、もう 1 つは対象位置からです。
次に、これらのポイントの情報を分析することで、属性抽出のための 3 段階の内部メカニズムを明らかにします。
まず、最後の主題位置の表現は、初期の MLP サブレイヤによって駆動される強化プロセスを経て、多くの主題関連の属性がエンコードされます。
第 2 に、関係からの情報が予測に伝播されます。
3 番目に、予測表現は属性を抽出するために強化されたサブジェクトを「クエリ」します。
おそらく驚くべきことに、この抽出は通常、アテンション ヘッドを介して行われます。アテンション ヘッドは、多くの場合、パラメータ内でサブジェクトと属性のマッピングをエンコードします。
全体として、私たちの調査結果は、事実の関連付けが LM の内部でどのように保存および抽出されるかについての包括的なビューを導入し、知識のローカライゼーションと編集に関する将来の研究を促進します。

要約(オリジナル)

Transformer-based language models (LMs) are known to capture factual knowledge in their parameters. While previous work looked into where factual associations are stored, only little is known about how they are retrieved internally during inference. We investigate this question through the lens of information flow. Given a subject-relation query, we study how the model aggregates information about the subject and relation to predict the correct attribute. With interventions on attention edges, we first identify two critical points where information propagates to the prediction: one from the relation positions followed by another from the subject positions. Next, by analyzing the information at these points, we unveil a three-step internal mechanism for attribute extraction. First, the representation at the last-subject position goes through an enrichment process, driven by the early MLP sublayers, to encode many subject-related attributes. Second, information from the relation propagates to the prediction. Third, the prediction representation ‘queries’ the enriched subject to extract the attribute. Perhaps surprisingly, this extraction is typically done via attention heads, which often encode subject-attribute mappings in their parameters. Overall, our findings introduce a comprehensive view of how factual associations are stored and extracted internally in LMs, facilitating future research on knowledge localization and editing.

arxiv情報

著者 Mor Geva,Jasmijn Bastings,Katja Filippova,Amir Globerson
発行日 2023-10-11 09:49:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク