Benchmarking Knowledge Boundary for Large Language Models: A Different Perspective on Model Evaluation

要約

近年、大規模な言語モデルの開発が大幅に進歩し、さまざまなタスクにわたって目覚ましいパフォーマンスを達成しました。
言語モデルの知識能力を評価するために、これまでの研究では質問と回答のペアに基づいた多くのベンチマークが提案されてきました。
言語モデルはプロンプトに敏感であるため、固定の質問や限られた言い換えをクエリとして使用して言語モデルを評価することは信頼性が高く包括的ではないと主張します。
したがって、言語モデル内でプロンプトに依存しない知識とプロンプトに敏感な知識の両方を包含するために、知識境界と呼ばれる新しい概念を導入します。
知識境界により、言語モデルの評価における即時の機密性が回避され、言語モデルの評価がより信頼性が高く堅牢になります。
特定のモデルの知識境界を探索するために、意味論的制約を伴う投影型勾配降下法、つまり各知識の最適なプロンプトを特定するように設計された新しいアルゴリズムを提案します。
実験では、既存の方法と比較して、知識境界の計算におけるアルゴリズムの優れたパフォーマンスが実証されています。
さらに、知識境界を持ついくつかのドメインにおける複数の言語モデルの能力を評価します。

要約(オリジナル)

In recent years, substantial advancements have been made in the development of large language models, achieving remarkable performance across diverse tasks. To evaluate the knowledge ability of language models, previous studies have proposed lots of benchmarks based on question-answering pairs. We argue that it is not reliable and comprehensive to evaluate language models with a fixed question or limited paraphrases as the query, since language models are sensitive to prompt. Therefore, we introduce a novel concept named knowledge boundary to encompass both prompt-agnostic and prompt-sensitive knowledge within language models. Knowledge boundary avoids prompt sensitivity in language model evaluations, rendering them more dependable and robust. To explore the knowledge boundary for a given model, we propose projected gradient descent method with semantic constraints, a new algorithm designed to identify the optimal prompt for each piece of knowledge. Experiments demonstrate a superior performance of our algorithm in computing the knowledge boundary compared to existing methods. Furthermore, we evaluate the ability of multiple language models in several domains with knowledge boundary.

arxiv情報

著者 Xunjian Yin,Xu Zhang,Jie Ruan,Xiaojun Wan
発行日 2024-05-29 17:39:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク