Dissecting Recall of Factual Associations in Auto-Regressive Language Models

要約

タイトル:自己回帰言語モデルにおける事実的関連の回想を解剖する

要約:

– Transformerベースの言語モデルは、それらのパラメータに事実的な知識を捕捉できることが知られている。
– 以前の研究では、事実的な関連が保存されている場所について検討されてきたが、推論の際に彼らがどのように内部的に呼び出されるかについてはほとんど知られていない。
– 情報フローの観点からこの問題を調査する。主語-関係クエリが与えられた場合、モデルが正しい属性を予測するために主語と関係についてどのように情報を集約するかを研究する。
– 注意エッジに対する介入によって、情報が予測に伝播する2つの重要なポイントを最初に特定する:まず関係位置から、次に主語位置から。
– 次に、これらのポイントでの情報の分析により、属性の抽出のための3段階の内部メカニズムが明らかになる。最初に、最後の主語位置の表現は、早いMLPサブレイヤーによって駆動される豊富な主題関連の属性をエンコードする豊富化プロセスを経る。 second,関係からの情報が予測に伝播する。 third,予測表現が豊富な主題を問い合わせて属性を抽出する。意外にも、この抽出は通常、パラメーターに主題-属性マッピングをエンコードする注意ヘッドを介して行われる。
– 全体的に、研究調査は自己回帰言語モデルにおいて事実的関連が内部的にどのように保存および抽出されるかを明らかにし、将来的な知識の局在化と編集に関する研究を促進する。

要約(オリジナル)

Transformer-based language models (LMs) are known to capture factual knowledge in their parameters. While previous work looked into where factual associations are stored, only little is known about how they are retrieved internally during inference. We investigate this question through the lens of information flow. Given a subject-relation query, we study how the model aggregates information about the subject and relation to predict the correct attribute. With interventions on attention edges, we first identify two critical points where information propagates to the prediction: one from the relation positions followed by another from the subject positions. Next, by analyzing the information at these points, we unveil a three-step internal mechanism for attribute extraction. First, the representation at the last-subject position goes through an enrichment process, driven by the early MLP sublayers, to encode many subject-related attributes. Second, information from the relation propagates to the prediction. Third, the prediction representation ‘queries’ the enriched subject to extract the attribute. Perhaps surprisingly, this extraction is typically done via attention heads, which often encode subject-attribute mappings in their parameters. Overall, our findings introduce a comprehensive view of how factual associations are stored and extracted internally in LMs, facilitating future research on knowledge localization and editing.

arxiv情報

著者 Mor Geva,Jasmijn Bastings,Katja Filippova,Amir Globerson
発行日 2023-04-28 11:26:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク