AdEval: Alignment-based Dynamic Evaluation to Mitigate Data Contamination in Large Language Models

要約

大規模言語モデル（Large Language Models: LLM）が大規模コーパス上で事前学習されるにつれて、データ汚染の問題が深刻化しており、評価時にモデルの性能が過大評価される可能性がある。この問題に対処するため、我々はAdEval（Alignment-based Dynamic Evaluation）を提案する。AdEvalは、評価の信頼性に対するデータ汚染の影響を軽減することを目的とした動的なデータ評価手法である。複数のデータセットを用いた実験結果から、AdEvalはデータ汚染による評価結果への影響を効果的に低減し、評価プロセスの公平性と信頼性の両方を向上させることが実証された。

要約(オリジナル)

As Large Language Models (LLMs) are pretrained on massive-scale corpora, the issue of data contamination has become increasingly severe, leading to potential overestimation of model performance during evaluation. To address this, we propose AdEval (Alignment-based Dynamic Evaluation), a dynamic data evaluation method aimed at mitigating the impact of data contamination on evaluation reliability. Experimental results on multiple datasets demonstrate that AdEval effectively reduces the impact of data contamination on evaluation outcomes, enhancing both the fairness and reliability of the evaluation process.

arxiv情報

著者	Yang Fan
発行日	2025-03-03 02:06:47+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

AdEval: Alignment-based Dynamic Evaluation to Mitigate Data Contamination in Large Language Models

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー