Evaluation data contamination in LLMs: how do we measure it and (when) does it matter?

要約

ベンチマーク スコアの解釈を妨げる評価データの汚染は、LLM の評価においてますます大きな懸念となっており、その影響を研究する研究分野が活発に行われています。
評価データの汚染は直感的に簡単に理解できますが、どのサンプルが汚染されているとみなすべきか、そしてそれがベンチマーク スコアにどのような影響を与えるかを正確に定義することは驚くほど困難です。
私たちは、これらの質問を一緒に解決する必要があり、汚染のマークを付けたサンプルからモデルが恩恵を受けるかどうかに基づいて汚染指標を評価できることを提案します。
私たちは ConTAM と呼ばれる新しい分析手法を提案し、13 のベンチマークと 2 つの異なるファミリーの 7 つのモデルにわたる既存および新規の N グラムベースの汚染メトリクスの大規模調査により、評価データの汚染とその影響をより良く理解するために ConTAM を使用できることを示します。

私たちは、汚染が最近の LLM リリースで報告されているよりもはるかに大きな影響を及ぼしている可能性があり、スケールが異なるとモデルに異なる利点をもたらす可能性があることを発見しました。
また、最も長い汚染された部分文字列のみを考慮すると、すべての汚染された部分文字列の和集合を考慮するよりも優れた信号が得られること、およびモデルおよびベンチマーク固有のしきい値分析を実行すると、結果の特異性が大幅に向上することもわかりました。
最後に、ハイパーパラメーターの選択の影響を調査し、特に、n のより大きな値を使用することと、トレーニング前のデータでまれな一致を無視することの両方が、多くの偽陰性を引き起こすことを発見しました。
ConTAM を使用すると、下流の影響における評価データの汚染指標を経験的に根拠付ける方法が提供されます。
私たちの調査により、評価データの汚染が LLM にどのような影響を与える可能性があるかを明らかにし、汚染分析を行う際の重要な考慮事項についての洞察を提供します。
これらをより詳細に説明し、将来の作業への具体的な提案を提供して、本稿を終了します。

要約(オリジナル)

Hampering the interpretation of benchmark scores, evaluation data contamination has become a growing concern in the evaluation of LLMs, and an active area of research studies its effects. While evaluation data contamination is easily understood intuitively, it is surprisingly difficult to define precisely which samples should be considered contaminated and, consequently, how it impacts benchmark scores. We propose that these questions should be addressed together and that contamination metrics can be assessed based on whether models benefit from the examples they mark contaminated. We propose a novel analysis method called ConTAM, and show with a large scale survey of existing and novel n-gram based contamination metrics across 13 benchmarks and 7 models from 2 different families that ConTAM can be used to better understand evaluation data contamination and its effects. We find that contamination may have a much larger effect than reported in recent LLM releases and benefits models differently at different scales. We also find that considering only the longest contaminated substring provides a better signal than considering a union of all contaminated substrings, and that doing model and benchmark specific threshold analysis greatly increases the specificity of the results. Lastly, we investigate the impact of hyperparameter choices, finding that, among other things, both using larger values of n and disregarding matches that are infrequent in the pre-training data lead to many false negatives. With ConTAM, we provide a method to empirically ground evaluation data contamination metrics in downstream effects. With our exploration, we shed light on how evaluation data contamination can impact LLMs and provide insight into the considerations important when doing contamination analysis. We end our paper by discussing these in more detail and providing concrete suggestions for future work.

arxiv情報

著者 Aaditya K. Singh,Muhammed Yusuf Kocyigit,Andrew Poulton,David Esiobu,Maria Lomeli,Gergely Szilvasy,Dieuwke Hupkes
発行日 2024-11-06 13:54:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク