A Glitch in the Matrix? Locating and Detecting Language Model Grounding with Fakepedia

要約

大規模言語モデル(LLM)は、事実知識の記憶と想起において素晴らしい能力を示すだけでなく、新規の文脈内情報にも適応する。しかし、LLMの文脈内適応の基礎となるメカニズムは未知のままであり、特に、文脈内情報がパラメータに埋め込まれた事実知識と矛盾するような状況ではなおさらである。このことは、グラウンディングによって古くなったパラメータ知識が修正されることを期待し、最新の情報でコンテキストを豊かにする検索支援型生成手法にとって重要である。本研究では、Fakepediaを導入する。Fakepediaは、パラメトリック知識がコンテキスト内の情報と衝突した場合のグラウンディング能力を評価するために設計された反実仮想データセットである。Fakepediaを用いて様々なLLMのベンチマークを行い、GPT-4-turboがパラメトリック知識を強く優先することを発見した。一方、Mistral-7Bは最も頑健にグラウンデッドアンサーを選択するモデルである。次に、Fakepediaのクエリに答える際のLLMコンポーネントの因果調停分析を行う。特に、Transformerに含まれるMLPでは、接地されていない振る舞いを予測できるものが少ないため、計算グラフの検査のみで、92.8%の精度でLLMの接地が予測できることを実証する。我々の結果は、事実想起メカニズムに関する既存の知見と合わせて、LLMの中で接地と事実想起メカニズムがどのように相互作用するかについての首尾一貫した物語を提供する。

要約(オリジナル)

Large language models (LLMs) have demonstrated impressive capabilities in storing and recalling factual knowledge, but also in adapting to novel in-context information. Yet, the mechanisms underlying their in-context grounding remain unknown, especially in situations where in-context information contradicts factual knowledge embedded in the parameters. This is critical for retrieval-augmented generation methods, which enrich the context with up-to-date information, hoping that grounding can rectify the outdated parametric knowledge. In this study, we introduce Fakepedia, a counterfactual dataset designed to evaluate grounding abilities when the parametric knowledge clashes with the in-context information. We benchmark various LLMs with Fakepedia and discover that GPT-4-turbo has a strong preference for its parametric knowledge. Mistral-7B, on the contrary, is the model that most robustly chooses the grounded answer. Then, we conduct causal mediation analysis on LLM components when answering Fakepedia queries. We demonstrate that inspection of the computational graph alone can predict LLM grounding with 92.8% accuracy, especially because few MLPs in the Transformer can predict non-grounded behavior. Our results, together with existing findings about factual recall mechanisms, provide a coherent narrative of how grounding and factual recall mechanisms interact within LLMs.

arxiv情報

著者 Giovanni Monea,Maxime Peyrard,Martin Josifoski,Vishrav Chaudhary,Jason Eisner,Emre Kıcıman,Hamid Palangi,Barun Patra,Robert West
発行日 2023-12-04 17:35:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク