The Emperor’s New Clothes in Benchmarking? A Rigorous Examination of Mitigation Strategies for LLM Benchmark Data Contamination

要約

ベンチマークデータ汚染(BDC) – トレーニングセットにベンチマークテストサンプルを含めると、大規模な言語モデル(LLM)評価の懸念が高まり、パフォーマンスの推定値が誤って膨らんで評価の信頼性を損ないました。
これに対処するために、研究者は、元の質問を変更したり、それらに基づいて新しい質問を生成したりするなど、既存のベンチマークを更新するためのさまざまな緩和戦略を提案しました。
ただし、これらの緩和戦略の有効性の厳密な調査は依然として欠けています。
このペーパーでは、既存のBDC緩和戦略の細かく包括的な評価を提供するために、2つの新しいメトリックの忠実度と汚染抵抗性とともに、体系的で制御されたパイプラインを設計します。
精度の低下や精度マッチングなどの以前の評価方法は、総精度のみに焦点を当て、多くの場合、不完全または誤解を招く結論につながります。
私たちのメトリックは、質問レベルの評価結果マッチングを強調することにより、この制限に対処します。
10 LLMS、5つのベンチマーク、20のBDC緩和戦略、および2つの汚染シナリオを使用した広範な実験により、既存の戦略がすべてのベンチマークにわたってバニラケース(つまり、ベンチマークの更新なし)に対する抵抗を大幅に改善しないことが明らかになり、忠実性と汚染抵抗は効果的にバランスをとることはありません。
これらの調査結果は、より効果的なBDC緩和戦略を設計するための緊急の必要性を強調しています。
当社のコードリポジトリは、https://github.com/astral-group/bdc_mitigation_assessmentで入手できます。

要約(オリジナル)

Benchmark Data Contamination (BDC)-the inclusion of benchmark testing samples in the training set-has raised increasing concerns in Large Language Model (LLM) evaluation, leading to falsely inflated performance estimates and undermining evaluation reliability. To address this, researchers have proposed various mitigation strategies to update existing benchmarks, including modifying original questions or generating new ones based on them. However, a rigorous examination of the effectiveness of these mitigation strategies remains lacking. In this paper, we design a systematic and controlled pipeline along with two novel metrics-fidelity and contamination resistance-to provide a fine-grained and comprehensive assessment of existing BDC mitigation strategies. Previous assessment methods, such as accuracy drop and accuracy matching, focus solely on aggregate accuracy, often leading to incomplete or misleading conclusions. Our metrics address this limitation by emphasizing question-level evaluation result matching. Extensive experiments with 10 LLMs, 5 benchmarks, 20 BDC mitigation strategies, and 2 contamination scenarios reveal that no existing strategy significantly improves resistance over the vanilla case (i.e., no benchmark update) across all benchmarks, and none effectively balances fidelity and contamination resistance. These findings underscore the urgent need for designing more effective BDC mitigation strategies. Our code repository is available at https://github.com/ASTRAL-Group/BDC_mitigation_assessment.

arxiv情報

著者 Yifan Sun,Han Wang,Dongbai Li,Gang Wang,Huan Zhang
発行日 2025-03-20 17:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク