A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia

要約

大規模言語モデル (LLM) は、コンテキスト内で提供される新しい情報を利用する優れた能力を備えています。
しかし、特にコンテキスト情報がパラメーターに保存されている事実の知識と矛盾する状況では、このコンテキスト基盤の根底にあるメカニズムは不明のままであり、LLM はそれを思い出すことにも優れています。
コンテキスト情報を優先することは、最新の情報でコンテキストを豊かにする検索拡張生成方法にとって重要であり、グラウンディングによって古い知識やノイズの多い保存された知識が修正されることを期待しています。
我々は、モデルの内部パラメトリック知識と衝突するように構築された反事実テキストのデータセットである Fakepedia を使用してグラウンディング能力を研究する新しい方法を紹介します。
当社は、Fakepedia を使用してさまざまな LLM のベンチマークを実行し、Fakepedia のクエリに回答するときに、LLM コンポーネントに対してマスクされたグループ化因果追跡 (MGCT) に基づいて因果媒介分析を実行します。
この分析では、根拠のある応答と根拠のない応答の間の異なる計算パターンを特定します。
最後に、根拠のある応答と根拠のない応答を区別することが、計算解析だけで達成できることを示します。
私たちの結果は、事実想起メカニズムに関する既存の調査結果と合わせて、LLM 内でグラウンディングと事実想起メカニズムがどのように相互作用するかについての一貫した物語を提供します。

要約(オリジナル)

Large language models (LLMs) have an impressive ability to draw on novel information supplied in their context. Yet the mechanisms underlying this contextual grounding remain unknown, especially in situations where contextual information contradicts factual knowledge stored in the parameters, which LLMs also excel at recalling. Favoring the contextual information is critical for retrieval-augmented generation methods, which enrich the context with up-to-date information, hoping that grounding can rectify outdated or noisy stored knowledge. We present a novel method to study grounding abilities using Fakepedia, a dataset of counterfactual texts constructed to clash with a model’s internal parametric knowledge. We benchmark various LLMs with Fakepedia and then we conduct a causal mediation analysis, based on our Masked Grouped Causal Tracing (MGCT), on LLM components when answering Fakepedia queries. Within this analysis, we identify distinct computational patterns between grounded and ungrounded responses. We finally demonstrate that distinguishing grounded from ungrounded responses is achievable through computational analysis alone. Our results, together with existing findings about factual recall mechanisms, provide a coherent narrative of how grounding and factual recall mechanisms interact within LLMs.

arxiv情報

著者 Giovanni Monea,Maxime Peyrard,Martin Josifoski,Vishrav Chaudhary,Jason Eisner,Emre Kıcıman,Hamid Palangi,Barun Patra,Robert West
発行日 2024-02-20 17:27:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク