要約
大規模言語モデル (LLM) の知識を評価するために、現在の方法ではモデルにクエリを実行し、生成された応答を評価します。
この作業では、モデルがテキストを生成する $\textit{前}$ に評価を実行できるかどうかを尋ねます。
具体的には、モデルが特定のエンティティについてどの程度の知識を持っているかを、その内部計算のみから推定することは可能でしょうか?
この質問を 2 つのタスクで研究します。対象となるエンティティが与えられた場合、目標は、(a) エンティティに関する一般的な質問に答えるモデルの能力、および (b) エンティティに関してモデルによって生成された応答の事実性を予測することです。
さまざまな LLM を使った実験では、被験者の内部表現に対してトレーニングされた単純なプローブである KEEN が両方のタスクで成功することが示されており、被験者ごとのモデルの QA 精度と、オープンエンド生成における最近の事実指標である FActScore の両方と強く相関しています。
さらに、KEEN はモデルのヘッジ動作と自然に一致し、微調整後のモデルの知識の変化を忠実に反映します。
最後に、より解釈可能でありながら同様にパフォーマンスが高い KEEN のバリアントを示します。これは、モデルの知識不足と相関する少数のトークン セットを強調表示します。
シンプルで軽量な KEEN を利用して、LLM 内のエンティティ知識のギャップやクラスターを特定し、検索によるクエリの強化などの意思決定をガイドできます。
要約(オリジナル)
To evaluate knowledge in large language models (LLMs), current methods query the model and then evaluate its generated responses. In this work, we ask whether evaluation can be done $\textit{before}$ the model has generated any text. Concretely, is it possible to estimate how knowledgeable a model is about a certain entity, only from its internal computation? We study this question with two tasks: given a subject entity, the goal is to predict (a) the ability of the model to answer common questions about the entity, and (b) the factuality of responses generated by the model about the entity. Experiments with a variety of LLMs show that KEEN, a simple probe trained over internal subject representations, succeeds at both tasks – strongly correlating with both the QA accuracy of the model per-subject and FActScore, a recent factuality metric in open-ended generation. Moreover, KEEN naturally aligns with the model’s hedging behavior and faithfully reflects changes in the model’s knowledge after fine-tuning. Lastly, we show a more interpretable yet equally performant variant of KEEN, which highlights a small set of tokens that correlates with the model’s lack of knowledge. Being simple and lightweight, KEEN can be leveraged to identify gaps and clusters of entity knowledge in LLMs, and guide decisions such as augmenting queries with retrieval.
arxiv情報
著者 | Daniela Gottesman,Mor Geva |
発行日 | 2024-06-18 14:45:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google