要約
大規模な言語モデル(LLM)は大規模な規模のコーパスで事前に処理されるため、データ汚染の問題はますます深刻になり、評価中のモデルパフォーマンスの過大評価の可能性につながります。
これに対処するために、評価の信頼性に対するデータ汚染の影響を緩和することを目的とした動的なデータ評価方法であるAdeval(アライメントベースの動的評価)を提案します。
Adevalは、重要な知識ポイントと主要なアイデアを抽出して、動的に生成された質問を静的データのコア概念に合わせます。
また、オンライン検索を活用して、関連する知識ポイントの詳細な説明を提供するため、堅牢な知識サポートを備えた高品質の評価サンプルを作成します。
さらに、Adevalには、質問の数と複雑さを制御するメカニズムが組み込まれ、動的なアライメントと柔軟な調整を可能にします。
これにより、生成された質問が、さまざまな複雑さレベルをサポートしながら、静的データの複雑さと一致することが保証されます。
Bloomの分類に基づいて、Adevalは、6つの認知レベルでLLMの多次元評価を実施しています:記憶、理解、適用、分析、評価、および作成。
複数のデータセットでの実験結果は、Adevalが評価結果に対するデータ汚染の影響を効果的に減らし、評価プロセスの公平性と信頼性の両方を高めることを示しています。
要約(オリジナル)
As Large Language Models (LLMs) are pretrained on massive-scale corpora, the issue of data contamination has become increasingly severe, leading to potential overestimation of model performance during evaluation. To address this, we propose AdEval (Alignment-based Dynamic Evaluation), a dynamic data evaluation method aimed at mitigating the impact of data contamination on evaluation reliability. AdEval extracts key knowledge points and main ideas to align dynamically generated questions with static data’s core concepts. It also leverages online search to provide detailed explanations of related knowledge points, thereby creating high-quality evaluation samples with robust knowledge support. Furthermore, AdEval incorporates mechanisms to control the number and complexity of questions, enabling dynamic alignment and flexible adjustment. This ensures that the generated questions align with the complexity of static data while supporting varied complexity levels. Based on Bloom’s taxonomy, AdEval conducts a multi-dimensional evaluation of LLMs across six cognitive levels: remembering, understanding, applying, analyzing, evaluating, and creating. Experimental results on multiple datasets demonstrate that AdEval effectively reduces the impact of data contamination on evaluation outcomes, enhancing both the fairness and reliability of the evaluation process.
arxiv情報
| 著者 | Yang Fan |
| 発行日 | 2025-02-28 15:07:55+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google