Time Travel in LLMs: Tracing Data Contamination in Large Language Models

要約

データ汚染、つまり大規模言語モデル (LLM) のトレーニング データ内に下流タスクからのテスト データが存在することは、他のタスクに対する LLM の実際の有効性を測定する際に潜在的な大きな問題となります。
私たちは、LLM 内のデータ汚染を特定するための単純かつ効果的な方法を提案します。
私たちのアプローチの核心は、インスタンスレベルで潜在的な汚染を特定することから始まります。
この情報を使用して、私たちのアプローチはパーティションレベルで広範囲の汚染を評価します。
個々のインスタンスの汚染を推定するために、「ガイド付き指示」を採用します。このプロンプトは、データセット名、パーティション タイプ、参照インスタンスのランダムな長さの初期セグメントで構成され、LLM にそれを完了するよう求めます。
LLM の出力が参照の後半のセグメントと正確またはほぼ一致する場合、インスタンスには汚染されたフラグが立てられます。
パーティション全体が汚染されているかどうかを理解するために、2 つのアイデアを提案します。
最初のアイデアは、参照インスタンスとの平均オーバーラップ スコア (ROUGE-L または BLEURT によって測定) が、ガイド付き命令による完了の方が統計的に有意に優れている場合に、データセット パーティションを汚染しているとマークします。
データセットとパーティション名。
2 番目のアイデアは、少数ショットのコンテキスト内学習プロンプトを備えた GPT-4 に基づく分類器が、生成された複数の補完を、対応する参照インスタンスの完全一致/ほぼ完全一致としてマークする場合、データセット パーティションを汚染しているとマークします。
私たちの最良の方法は、人間の専門家による手動評価と比較した場合、LLM がトレーニングおよびテスト/検証パーティションを含む 7 つのデータセットで汚染されているかどうかを検出する際に 92% ~ 100% の精度を達成します。
さらに、我々の調査結果は、GPT-4 が AG News、WNLI、および XSum データセットで汚染されていることを示しています。

要約(オリジナル)

Data contamination, i.e., the presence of test data from downstream tasks in the training data of large language models (LLMs), is a potential major issue in measuring LLMs’ real effectiveness on other tasks. We propose a straightforward yet effective method for identifying data contamination within LLMs. At its core, our approach starts by identifying potential contamination at the instance level; using this information, our approach then assesses wider contamination at the partition level. To estimate contamination of individual instances, we employ ‘guided instruction:’ a prompt consisting of the dataset name, partition type, and the random-length initial segment of a reference instance, asking the LLM to complete it. An instance is flagged as contaminated if the LLM’s output either exactly or nearly matches the latter segment of the reference. To understand if an entire partition is contaminated, we propose two ideas. The first idea marks a dataset partition as contaminated if the average overlap score with the reference instances (as measured by ROUGE-L or BLEURT) is statistically significantly better with the completions from guided instruction compared to a ‘general instruction’ that does not include the dataset and partition name. The second idea marks a dataset partition as contaminated if a classifier based on GPT-4 with few-shot in-context learning prompt marks multiple generated completions as exact/near-exact matches of the corresponding reference instances. Our best method achieves an accuracy between 92% and 100% in detecting if an LLM is contaminated with seven datasets, containing train and test/validation partitions, when contrasted with manual evaluation by human experts. Further, our findings indicate that GPT-4 is contaminated with AG News, WNLI, and XSum datasets.

arxiv情報

著者 Shahriar Golchin,Mihai Surdeanu
発行日 2023-10-01 09:11:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク