要約
検索拡張生成 (RAG) は、外部コンテキストを使用して推論し、特定のユーザー プロンプトに対する応答を拡張する言語モデルの機能を強化します。
このアプローチは、検索、質問/回答、チャットボットなどの言語モデルのさまざまなアプリケーションで実際に応用されているため、人気が高まっています。
ただし、このアプローチがどのように機能するかの正確な性質は明確には理解されていません。
この論文では、RAG パイプラインを機構的に調べて、言語モデルがショートカットを利用し、パラメトリック メモリへの依存を最小限に抑えながら、質問に答えるためにコンテキスト情報のみを利用するという強いバイアスがあることを強調します。
このメカニズムの動作を言語モデルで調査します。(i) 因果関係分析を使用して、質問に答えるときにパラメトリック メモリが最小限に利用されていることを示します。(ii) アテンションの寄与とノックアウトを使用して、最後のトークンの残差ストリームが強化されていないことを示します。
質問の件名トークンですが、コンテキスト内の他の情報トークンから強化されます。
この顕著なショートカット動作は、LLaMa モデルと Phi ファミリーのモデルの両方に当てはまります。
要約(オリジナル)
Retrieval Augmented Generation (RAG) enriches the ability of language models to reason using external context to augment responses for a given user prompt. This approach has risen in popularity due to practical applications in various applications of language models in search, question/answering, and chat-bots. However, the exact nature of how this approach works isn’t clearly understood. In this paper, we mechanistically examine the RAG pipeline to highlight that language models take shortcut and have a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory. We probe this mechanistic behavior in language models with: (i) Causal Mediation Analysis to show that the parametric memory is minimally utilized when answering a question and (ii) Attention Contributions and Knockouts to show that the last token residual stream do not get enriched from the subject token in the question, but gets enriched from other informative tokens in the context. We find this pronounced shortcut behaviour true across both LLaMa and Phi family of models.
arxiv情報
著者 | Hitesh Wadhwa,Rahul Seetharaman,Somyaa Aggarwal,Reshmi Ghosh,Samyadeep Basu,Soundararajan Srinivasan,Wenlong Zhao,Shreyas Chaudhari,Ehsan Aghazadeh |
発行日 | 2024-06-18 17:46:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google