要約
1対多くの事実の質問(例:国の都市を上場する)に答えるには、言語モデル(LM)は同時に知識を思い出し、以前の回答を繰り返すことを避けなければなりません。
これらの2つのサブタスクは、内部でどのように実装および統合されていますか?
複数のデータセットとモデルにわたって、促進されたサプレスメカニズムを特定します。モデルは最初にすべての回答を思い出し、次に以前に生成された回答を抑制します。
具体的には、LMSは主題と以前の回答トークンの両方を使用して知識リコールを実行し、主題情報とMLPが回答を促進することを伝達します。
次に、MLPSが抑制信号を増幅する一方で、以前の回答トークンに注意を払って抑制します。
私たちのメカニズムは、広範な実験的証拠によって裏付けられています。早期のデコードと因果追跡を使用することに加えて、指定されたトークンからの集約された注意更新を解読する両方のトークンレンズを導入することにより、コンポーネントが異なるトークンを使用する方法を分析し、特定の注意を除去した後のMLP出力の変化を分析するノックアウト方法を分析します。
全体として、LMSの内部コンポーネントがさまざまな入力トークンと相互作用して、複雑な事実リコールをサポートする方法についての新しい洞察を提供します。
コードはhttps://github.com/lorenayannnnn/how-lms-answer-one-to-many-factual-queriesで入手できます。
要約(オリジナル)
To answer one-to-many factual queries (e.g., listing cities of a country), a language model (LM) must simultaneously recall knowledge and avoid repeating previous answers. How are these two subtasks implemented and integrated internally? Across multiple datasets and models, we identify a promote-then-suppress mechanism: the model first recalls all answers, and then suppresses previously generated ones. Specifically, LMs use both the subject and previous answer tokens to perform knowledge recall, with attention propagating subject information and MLPs promoting the answers. Then, attention attends to and suppresses previous answer tokens, while MLPs amplify the suppression signal. Our mechanism is corroborated by extensive experimental evidence: in addition to using early decoding and causal tracing, we analyze how components use different tokens by introducing both Token Lens, which decodes aggregated attention updates from specified tokens, and a knockout method that analyzes changes in MLP outputs after removing attention to specified tokens. Overall, we provide new insights into how LMs’ internal components interact with different input tokens to support complex factual recall. Code is available at https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.
arxiv情報
著者 | Tianyi Lorena Yan,Robin Jia |
発行日 | 2025-03-05 13:22:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google