Interpreting Key Mechanisms of Factual Recall in Transformer-Based Language Models

要約

このペーパーでは、事実想起タスクのために Transformer ベースの言語モデル (LLM) で採用されているいくつかのメカニズムを詳しく掘り下げます。
3 つの主要なステップで構成されるパイプラインの概要を説明します。 (1) 「フランスの首都は」というプロンプトが与えられると、タスク固有のアテンション ヘッドがコンテキストから「フランス」などのトピック トークンを抽出し、それを渡します。
その後の MLP に。
(2) アテンション ヘッドの出力が等しい重みで集約され、残差ストリームに追加されると、後続の MLP は「アクティベーション」として機能し、個々のヘッドから発生する情報を消去または増幅します。
その結果、トピック トークン「フランス」が残差ストリーム内で目立ちます。
(3) ディープ MLP は「フランス」を取得し、残りのストリームを正解の方向、つまり「パリ」にリダイレクトするコンポーネントを生成します。この手順は、「」などの暗黙的な関数を適用するのと似ています。
get\_capital($X$)”、引数 $X$ はアテンション ヘッドによって渡されるトピック トークン情報です。
MLP の上記の定量的および定性分析を実現するために、MLP の出力を人間が理解できる要素に分解することを目的とした新しい分析手法を提案しました。
さらに、モデルの最終層で、正しい予測を抑制する普遍的な反過信メカニズムが観察されました。
私たちは解釈を活用して事実の再現の信頼性を高めることで、この抑制を軽減します。
上記の解釈は、GPT-2 ファミリ、1.3B OPT、最大 7B Llama-2 のさまざまな言語モデルを使用し、ゼロショットと少数ショットの両方のセットアップで、事実知識のさまざまな領域にわたる多様なタスクにわたって評価されます。

要約(オリジナル)

In this paper, we delve into several mechanisms employed by Transformer-based language models (LLMs) for factual recall tasks. We outline a pipeline consisting of three major steps: (1) Given a prompt “The capital of France is,” task-specific attention heads extract the topic token, such as “France,” from the context and pass it to subsequent MLPs. (2) As attention heads’ outputs are aggregated with equal weight and added to the residual stream, the subsequent MLP acts as an “activation,” which either erases or amplifies the information originating from individual heads. As a result, the topic token “France” stands out in the residual stream. (3) A deep MLP takes “France” and generates a component that redirects the residual stream towards the direction of the correct answer, i.e., “Paris.” This procedure is akin to applying an implicit function such as “get\_capital($X$),” and the argument $X$ is the topic token information passed by attention heads. To achieve the above quantitative and qualitative analysis for MLPs, we proposed a novel analytic method aimed at decomposing the outputs of the MLP into components understandable by humans. Additionally, we observed a universal anti-overconfidence mechanism in the final layer of models, which suppresses correct predictions. We mitigate this suppression by leveraging our interpretation to improve factual recall confidence. The above interpretations are evaluated across diverse tasks spanning various domains of factual knowledge, using various language models from the GPT-2 families, 1.3B OPT, up to 7B Llama-2, and in both zero- and few-shot setups.

arxiv情報

著者 Ang Lv,Yuhan Chen,Kaiyi Zhang,Yulong Wang,Lifeng Liu,Ji-Rong Wen,Jian Xie,Rui Yan
発行日 2024-05-24 15:06:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク