Inside-Out: Hidden Factual Knowledge in LLMs

要約

この作業は、大規模な言語モデル(LLM)が出力で表現するものよりも多くの事実に基づいた知識をパラメーターでエンコードするかどうかを評価するためのフレームワークを提示します。
いくつかの研究はこの可能性を示唆していますが、この現象を明確に定義または実証したものはありません。
最初に知識の正式な定義を提案し、正しい回答ペアの割合で正しいものがより高くランク付けされているため、特定の質問に対してそれを定量化します。
これにより、個々の回答候補者のスコアリングに使用される情報に応じて、外部および内部の知識が生じます。モデルの観察可能なトークンレベルの確率またはその中間計算のいずれかです。
内部知識が外部の知識を超えると、隠された知識が生じます。
次に、このフレームワークをクローズドブックQAセットアップで3つの人気のあるOpen-Weights LLMに適用して、ケーススタディを提示します。
私たちの結果は、次のことを示しています。(1)LLMSは、平均ギャップが40%で、外部から表現するものよりも多くの事実上の知識を内部的にエンコードしています。
(2)驚くべきことに、いくつかの知識は非常に深く隠されているため、モデルは1,000回の回答の大規模な繰り返しサンプリングにもかかわらず、モデルが完全に答えを完全に知ることができますが、一度も生成できません。
これにより、LLMSの生成能力の基本的な制限が明らかになります。これは、(3)クローズドブックQAでの繰り返し回答サンプリングを介してテスト時間計算のスケーリングに実際的な制約を課します。

要約(オリジナル)

This work presents a framework for assessing whether large language models (LLMs) encode more factual knowledge in their parameters than what they express in their outputs. While a few studies hint at this possibility, none has clearly defined or demonstrated this phenomenon. We first propose a formal definition of knowledge, quantifying it for a given question as the fraction of correct-incorrect answer pairs where the correct one is ranked higher. This gives rise to external and internal knowledge, depending on the information used to score individual answer candidates: either the model’s observable token-level probabilities or its intermediate computations. Hidden knowledge arises when internal knowledge exceeds external knowledge. We then present a case study, applying this framework to three popular open-weights LLMs in a closed-book QA setup. Our results indicate that: (1) LLMs consistently encode more factual knowledge internally than what they express externally, with an average gap of 40%. (2) Surprisingly, some knowledge is so deeply hidden that a model can internally know an answer perfectly, yet fail to generate it even once, despite large-scale repeated sampling of 1,000 answers. This reveals fundamental limitations in the generation capabilities of LLMs, which (3) puts a practical constraint on scaling test-time compute via repeated answer sampling in closed-book QA: significant performance improvements remain inaccessible because some answers are practically never sampled, yet if they were, we would be guaranteed to rank them first.

arxiv情報

著者 Zorik Gekhman,Eyal Ben David,Hadas Orgad,Eran Ofek,Yonatan Belinkov,Idan Szpector,Jonathan Herzig,Roi Reichart
発行日 2025-03-19 15:21:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク