Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large Language Models


私たちは、大規模言語モデル (LLM) におけるデータ汚染を検出し、その量を推定するためのシンプルかつ効果的なアプローチであるデータ汚染クイズを提案します。
各データセット インスタンスの 3 つの摂動バージョンが作成されるクイズ形式を考案しました。
これらの選択肢の唯一の識別信号が正確な表現であることを考えると、LLM は、選択肢から元のインスタンスを識別するという任務を負ったとき、トレーニング前のフェーズでそれを記憶していれば、元のインスタンスを選択します。これは LLM に固有の特性です。

クイズにおける LLM のパフォーマンスがランダムな偶然が示すものを超えた場合、データセット パーティションは汚染されているとマークされます。
私たちの評価は、GPT-4 と GPT-3.5 の 2 つの最先端 LLM での 7 つのデータセットとそれぞれの分割 (トレーニングとテスト/検証) に及びます。


We propose the Data Contamination Quiz, a simple and effective approach to detect data contamination in large language models (LLMs) and estimate the amount of it. Specifically, we frame data contamination detection as a series of multiple-choice questions. We devise a quiz format wherein three perturbed versions of each dataset instance are created. These changes only include word-level perturbations, replacing words with their contextual synonyms, ensuring both the semantic and sentence structure remain exactly the same as the original instance. Together with the original instance, these perturbed versions constitute the choices in the quiz. Given that the only distinguishing signal among these choices is the exact wording, an LLM, when tasked with identifying the original instance from the choices, opts for the original if it has memorized it in its pre-training phase–a trait intrinsic to LLMs. A dataset partition is then marked as contaminated if the LLM’s performance on the quiz surpasses what random chance suggests. Our evaluation spans seven datasets and their respective splits (train and test/validation) on two state-of-the-art LLMs: GPT-4 and GPT-3.5. While lacking access to the pre-training data, our results suggest that our approach not only enhances the detection of data contamination but also provides an accurate estimation of its extent, even when the contamination signal is weak.


著者 Shahriar Golchin,Mihai Surdeanu
発行日 2023-11-10 18:48:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク