要約
言語モデル(LMS)は、事実の関連性のリコールに対応するものではなく、プロンプト内の多くの可能な信号に基づいて正しい予測を行うことができます。
ただし、LMSの現在の解釈はこれを考慮していません。
たとえば、「Astrid Lindgrenが「スウェーデン」と「スウェーデン」という対応する完了で生まれたクエリを考えると、著者が生まれた場所を知るか、スウェーデンの名前の名前を持つ人がスウェーデンで生まれたと仮定したことに基づいて、予測は違いはありません。
このホワイトペーパーでは、モデル固有のレシピ – プリズム – 4つの異なる予測シナリオの例を使用してデータセットを構築するための概要を示します:一般的な言語モデリング、推測、ヒューリスティックリコール、正確な事実のリコール。
2つの一般的な解釈可能性方法をシナリオに適用します:因果追跡(CT)と情報フロー分析。
どちらも、各シナリオで明確な結果をもたらすことがわかります。
正確な事実のリコールと一般的な言語モデリングシナリオの結果は、事実リコールのためのミッドレンジMLPサブレイヤーの重要性に関する以前の結論を確認し、一方、推測とヒューリスティックの結果は、最後のトークンポジションMLPサブレイヤーの重要な役割を示しています。
要約すると、LMSでの事実完了に関するより広範で詳細な研究のためのリソースを提供し、LMSが事実関連のクエリをどのように処理するかをより微妙な理解を提供する分析を提供します。
要約(オリジナル)
Language models (LMs) can make a correct prediction based on many possible signals in a prompt, not all corresponding to recall of factual associations. However, current interpretations of LMs fail to take this into account. For example, given the query ‘Astrid Lindgren was born in’ with the corresponding completion ‘Sweden’, no difference is made between whether the prediction was based on knowing where the author was born or assuming that a person with a Swedish-sounding name was born in Sweden. In this paper, we present a model-specific recipe – PrISM – for constructing datasets with examples of four different prediction scenarios: generic language modeling, guesswork, heuristics recall and exact fact recall. We apply two popular interpretability methods to the scenarios: causal tracing (CT) and information flow analysis. We find that both yield distinct results for each scenario. Results for exact fact recall and generic language modeling scenarios confirm previous conclusions about the importance of mid-range MLP sublayers for fact recall, while results for guesswork and heuristics indicate a critical role of late last token position MLP sublayers. In summary, we contribute resources for a more extensive and granular study of fact completion in LMs, together with analyses that provide a more nuanced understanding of how LMs process fact-related queries.
arxiv情報
著者 | Denitsa Saynova,Lovisa Hagström,Moa Johansson,Richard Johansson,Marco Kuhlmann |
発行日 | 2025-03-10 12:47:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google