Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models

要約

大規模言語モデル (LLM) の優れた機能に関する最近の声明は、通常、オープンアクセスのベンチマークでの評価によって裏付けられています。
LLM のトレーニング データの膨大なサイズと広範囲にわたるソースを考慮すると、明示的または暗黙的にテスト データが含まれる可能性があり、LLM がデータ汚染の影響を受けやすくなります。
しかし、トレーニング データの不透明性、モデルのブラック ボックス アクセス、合成トレーニング データの急速な増加により、LLM のデータ汚染の検出と軽減は重大な課題に直面しています。
この論文では、LLM の出力分布による汚染検出の略である CDD を提案します。
CDD では、LLM の出力分布のピークを識別することにより、データ汚染を検出するためにサンプリングされたテキストのみが必要になります。
評価におけるデータ汚染の影響を軽減するために、LLM の出力分布の修正に基づいた、TED: Trustworthy Evaluation via Output Distribution (出力分布による信頼できる評価) も提示します。
この研究を促進するために、データ汚染検出および汚染軽減評価タスク用の 2 つのベンチマーク、つまり DetCon と ComiEval を導入します。
広範な実験結果は、CDD が精度、F1 スコア、および AUC メトリクスの点で他の汚染検出アプローチと比べて平均 21.8\% ~ 30.2\% の相対的改善を達成し、テスト データの変異によって引き起こされた汚染を効果的に検出できることを示しています。
TED は、24 の設定および 21 の汚染度にわたって、データ汚染に起因するパフォーマンスの向上を最大 66.9\% まで大幅に軽減します。
実際のアプリケーションでは、ChatGPT が HumanEval ベンチマークでデータ汚染の影響を受ける可能性が高いことを明らかにしました。

要約(オリジナル)

Recent statements about the impressive capabilities of large language models (LLMs) are usually supported by evaluating on open-access benchmarks. Considering the vast size and wide-ranging sources of LLMs’ training data, it could explicitly or implicitly include test data, leading to LLMs being more susceptible to data contamination. However, due to the opacity of training data, the black-box access of models, and the rapid growth of synthetic training data, detecting and mitigating data contamination for LLMs faces significant challenges. In this paper, we propose CDD, which stands for Contamination Detection via output Distribution for LLMs. CDD necessitates only the sampled texts to detect data contamination, by identifying the peakedness of LLM’s output distribution. To mitigate the impact of data contamination in evaluation, we also present TED: Trustworthy Evaluation via output Distribution, based on the correction of LLM’s output distribution. To facilitate this study, we introduce two benchmarks, i.e., DetCon and ComiEval, for data contamination detection and contamination mitigation evaluation tasks. Extensive experimental results show that CDD achieves the average relative improvements of 21.8\%-30.2\% over other contamination detection approaches in terms of Accuracy, F1 Score, and AUC metrics, and can effectively detect contamination caused by the variants of test data. TED significantly mitigates performance improvements up to 66.9\% attributed to data contamination across 24 settings and 21 contamination degrees. In real-world applications, we reveal that ChatGPT exhibits a high potential to suffer from data contamination on HumanEval benchmark.

arxiv情報

著者 Yihong Dong,Xue Jiang,Huanyu Liu,Zhi Jin,Ge Li
発行日 2024-05-16 12:34:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG, cs.SE パーマリンク