Deciphering the Interplay of Parametric and Non-parametric Memory in Retrieval-augmented Language Models

要約

生成言語モデルは、専門的な知識やあまり議論されていない知識に苦労することがよくあります。
潜在的な解決策は、応答を生成する前に情報を取得するように機能する検索拡張生成 (RAG) モデルにあります。
この研究では、RAG モデルである \textsc{Atlas} アプローチが、すでに知っていること (パラメトリック) と取得するもの (ノンパラメトリック) をどのように決定するかを調査します。
私たちは、因果関係分析と対照実験を使用して、内部表現が情報処理にどのような影響を与えるかを調べます。
私たちの発見は、パラメトリックな知識と取得されたコンテキストの影響を解きほぐします。
これらは、モデルが両方のタイプの情報 (パラメトリックとノンパラメトリック) のどちらかを選択できる場合、モデルはパラメトリックな知識よりもコンテキストに依存することを示しています。
さらに、分析では、モデルがコンテキストからの情報を \emph{どのように使用するか} に関連する計算を調査します。
モデル内では複数のメカニズムがアクティブであり、メディエーション分析で検出できることがわかりました。1 つは \emph{コンテキストが関連しているかどうか}の決定、2 つ目は、エンコーダーが関連する場合のコピーをサポートするために出力表現を計算する方法です。

要約(オリジナル)

Generative language models often struggle with specialized or less-discussed knowledge. A potential solution is found in Retrieval-Augmented Generation (RAG) models which act like retrieving information before generating responses. In this study, we explore how the \textsc{Atlas} approach, a RAG model, decides between what it already knows (parametric) and what it retrieves (non-parametric). We use causal mediation analysis and controlled experiments to examine how internal representations influence information processing. Our findings disentangle the effects of parametric knowledge and the retrieved context. They indicate that in cases where the model can choose between both types of information (parametric and non-parametric), it relies more on the context than the parametric knowledge. Furthermore, the analysis investigates the computations involved in \emph{how} the model uses the information from the context. We find that multiple mechanisms are active within the model and can be detected with mediation analysis: first, the decision of \emph{whether the context is relevant}, and second, how the encoder computes output representations to support copying when relevant.

arxiv情報

著者 Mehrdad Farahani,Richard Johansson
発行日 2024-10-07 16:14:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク