Characterizing Mechanisms for Factual Recall in Language Models

要約

言語モデル (LM) は多くの場合、事前トレーニングで記憶した事実を、特定のコンテキストで現れる新しい情報と統合する必要があります。
これら 2 つの情報源が一致せず、モデル内で競合が発生する可能性がありますが、LM がその競合をどのように解決するかは不明です。
世界の首都の知識を照会するデータセットを使用して、そのような状況における LM の動作の分布的決定要因と機構的決定要因の両方を調査します。
具体的には、LM が事前トレーニングで学習した内容 (「ワルシャワ」) を上書きするために、反事実的な接頭辞 (例: 「ポーランドの首都はロンドン」) を使用する時間の割合を測定します。
Pythia と GPT2 では、クエリの国 (「ポーランド」) とコンテキスト内の都市 (「ロンドン」) の両方のトレーニング頻度が、モデルが反事実を使用する可能性に大きく影響します。
次に、ヘッド アトリビューションを使用して、ロジット内の記憶された回答またはコンテキスト内の回答を促進する個々のアテンション ヘッドを特定します。
これらのヘッドの値ベクトルをスケールアップまたはスケールダウンすることにより、新しいデータに対してコンテキスト内の回答を使用する可能性を制御できます。
この方法では、実行時に 1 つのヘッドをスケーリングするだけで、コンテキスト内の回答の生成率を 88% の確率に高めることができます。
私たちの研究は、多くの場合、モデルの動作を特定のコンポーネントにローカライズできることを示す一連の証拠に貢献し、将来のメソッドが実行時にモデルの動作を動的に制御する方法についての概念実証を提供します。

要約(オリジナル)

Language Models (LMs) often must integrate facts they memorized in pretraining with new information that appears in a given context. These two sources can disagree, causing competition within the model, and it is unclear how an LM will resolve the conflict. On a dataset that queries for knowledge of world capitals, we investigate both distributional and mechanistic determinants of LM behavior in such situations. Specifically, we measure the proportion of the time an LM will use a counterfactual prefix (e.g., ‘The capital of Poland is London’) to overwrite what it learned in pretraining (‘Warsaw’). On Pythia and GPT2, the training frequency of both the query country (‘Poland’) and the in-context city (‘London’) highly affect the models’ likelihood of using the counterfactual. We then use head attribution to identify individual attention heads that either promote the memorized answer or the in-context answer in the logits. By scaling up or down the value vector of these heads, we can control the likelihood of using the in-context answer on new data. This method can increase the rate of generating the in-context answer to 88\% of the time simply by scaling a single head at runtime. Our work contributes to a body of evidence showing that we can often localize model behaviors to specific components and provides a proof of concept for how future methods might control model behavior dynamically at runtime.

arxiv情報

著者 Qinan Yu,Jack Merullo,Ellie Pavlick
発行日 2023-10-24 15:15:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク