要約
大規模言語モデル(Large Language Models: LLM)が大規模コーパス上で事前学習されるにつれて、データ汚染の問題が深刻化しており、評価時にモデルの性能が過大評価される可能性がある。この問題に対処するため、我々はAdEval(Alignment-based Dynamic Evaluation)を提案する。AdEvalは、評価の信頼性に対するデータ汚染の影響を軽減することを目的とした動的なデータ評価手法である。複数のデータセットを用いた実験結果から、AdEvalはデータ汚染による評価結果への影響を効果的に低減し、評価プロセスの公平性と信頼性の両方を向上させることが実証された。
要約(オリジナル)
As Large Language Models (LLMs) are pretrained on massive-scale corpora, the issue of data contamination has become increasingly severe, leading to potential overestimation of model performance during evaluation. To address this, we propose AdEval (Alignment-based Dynamic Evaluation), a dynamic data evaluation method aimed at mitigating the impact of data contamination on evaluation reliability. Experimental results on multiple datasets demonstrate that AdEval effectively reduces the impact of data contamination on evaluation outcomes, enhancing both the fairness and reliability of the evaluation process.
arxiv情報
著者 | Yang Fan |
発行日 | 2025-03-03 02:06:47+00:00 |
arxivサイト | arxiv_id(pdf) |