Grounding Synthetic Data Evaluations of Language Models in Unsupervised Document Corpora

要約

言語モデル(LMS)は引き続き前進し、応答の品質と一貫性を向上させます。
インターネットスケールのトレーニングデータセットを考えると、LMSは、トレーニング中に何らかの形で生成するようにユーザーが依頼する可能性のあるものの多くに遭遇した可能性があります。
モデルの品質、応答の適切性、および推論能力を評価するために、多数の評価ベンチマークが構築されています。
ただし、ベンチマークの構築に必要な人間の努力は限られており、評価中のモデルのサイズと範囲によって急速に追い越されています。
さらに、人間に対象のあらゆる可能な領域のベンチマークを構築することは非現実的です。
したがって、ドキュメント集団に基づいた事実ベースの合成データモデル評価の構築を自動化するための方法論を提案します。
この作業は、それらのまったく同じLMSを活用して、ドメイン固有の知識を自動的に評価し、接地ドキュメントのみ(教科書など)のみを入力として使用します。
この合成データベンチマークアプローチは、スピアマンランキングの0.96とベンチマーク評価のピアソン精度相関を伴う人間のキュレーションされた質問によく対応しています。
この新しいツールは、複数選択と自由回答形式の合成データの両方の質問を生成して、LM機能の診断洞察を得ることをサポートしています。
この方法論を適用して、最近の関連するARXIVプレプリントでモデルパフォーマンスを評価し、GEMMA3モデルの驚くほど強力なパフォーマンスを発見します。

要約(オリジナル)

Language Models (LMs) continue to advance, improving response quality and coherence. Given Internet-scale training datasets, LMs have likely encountered much of what users might ask them to generate in some form during their training. A plethora of evaluation benchmarks have been constructed to assess model quality, response appropriateness, and reasoning capabilities. However, the human effort required for benchmark construction is limited and being rapidly outpaced by the size and scope of the models under evaluation. Additionally, having humans build a benchmark for every possible domain of interest is impractical. Therefore, we propose a methodology for automating the construction of fact-based synthetic data model evaluations grounded in document populations. This work leverages those very same LMs to evaluate domain-specific knowledge automatically, using only grounding documents (e.g., a textbook) as input. This synthetic data benchmarking approach corresponds well with human curated questions with a Spearman ranking correlation of 0.96 and a benchmark evaluation Pearson accuracy correlation of 0.79. This novel tool supports generating both multiple choice and open-ended synthetic data questions to gain diagnostic insight of LM capability. We apply this methodology to evaluate model performance on a recent relevant arXiv preprint, discovering a surprisingly strong performance from Gemma3 models.

arxiv情報

著者 Michael Majurski,Cynthia Matuszek
発行日 2025-05-13 18:50:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク