IDGen: Item Discrimination Induced Prompt Generation for LLM Evaluation

要約

大規模言語モデル (LLM) が複雑なタスクの管理にますます熟達するにつれて、評価セットは十分な識別力を維持するためにこれらの進歩に歩調を合わせる必要があります。
項目識別 (ID) 理論は教育評価で広く使用されており、個々のテスト項目が成績の高い人と低い人を区別する能力を測定します。
この理論に触発されて、LLM を評価するための ID 誘導プロンプト合成フレームワークを提案し、モデルの能力に従って評価セットが継続的に更新および改良できるようにします。
当社のデータ合成フレームワークは、広さと具体性の両方を優先します。
LLM の機能を包括的に評価するプロンプトを生成すると同時に、モデル間の重要なパフォーマンスの違いを明らかにし、さまざまなタスクやドメインにわたる相対的な長所と短所を効果的に識別できるようにします。
高品質のデータを生成するために、一般化フレームワークに自己修正メカニズムを組み込み、データ合成フレームワークを容易にするために即時識別と難易度スコアを予測する 2 つのモデルを開発し、評価データ合成研究に貴重なツールを提供します。
生成されたデータを適用して 5 つの SOTA モデルを評価します。
私たちのデータは、平均スコア 51.92 を達成し、分散は 10.06 でした。
対照的に、以前の作品 (つまり、SELF-INSTRUCT と WizardLM) は 67 を超える平均スコアを獲得し、分散は 3.2 未満でした。
結果は、私たちのフレームワークによって生成されたデータが、以前の研究と比較してより困難で識別力があることを示しています。
LLM の評価研究を促進するために、3,000 を超える慎重に作成されたプロンプトのデータセットをリリースします。

要約(オリジナル)

As Large Language Models (LLMs) grow increasingly adept at managing complex tasks, the evaluation set must keep pace with these advancements to ensure it remains sufficiently discriminative. Item Discrimination (ID) theory, which is widely used in educational assessment, measures the ability of individual test items to differentiate between high and low performers. Inspired by this theory, we propose an ID-induced prompt synthesis framework for evaluating LLMs to ensure the evaluation set can continually update and refine according to model abilities. Our data synthesis framework prioritizes both breadth and specificity. It can generate prompts that comprehensively evaluate the capabilities of LLMs while revealing meaningful performance differences between models, allowing for effective discrimination of their relative strengths and weaknesses across various tasks and domains. To produce high-quality data, we incorporate a self-correct mechanism into our generalization framework, and develop two models to predict prompt discrimination and difficulty score to facilitate our data synthesis framework, contributing valuable tools to evaluation data synthesis research. We apply our generated data to evaluate five SOTA models. Our data achieves an average score of 51.92, accompanied by a variance of 10.06. By contrast, previous works (i.e., SELF-INSTRUCT and WizardLM) obtain an average score exceeding 67, with a variance below 3.2. The results demonstrate that the data generated by our framework is more challenging and discriminative compared to previous works. We will release a dataset of over 3,000 carefully crafted prompts to facilitate evaluation research of LLMs.

arxiv情報

著者 Fan Lin,Shuyi Xie,Yong Dai,Wenlin Yao,Tianjiao Lang,Zishan Xu,Zhichao Hu,Xiao Xiao,Yuhong Liu,Yu Zhang
発行日 2024-09-27 16:29:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク