Time Travel in LLMs: Tracing Data Contamination in Large Language Models

要約

データコンタミネーション、つまり大規模言語モデル (LLM) のトレーニング データ内に下流タスクからのテスト データが存在することは、他のタスクに対する LLM の有効性を理解する上で潜在的な大きな問題となります。
私たちは、LLM 内のデータ汚染を特定するための単純かつ効果的な方法を提案します。
私たちのアプローチの核心は、少数の無作為サンプルから抽出された個々のインスタンスの潜在的な汚染を特定することから始まります。
この情報を使用して、私たちのアプローチはデータセット パーティション全体が汚染されているかどうかを評価します。
個々のインスタンスの汚染を推定するために、「ガイド付き指示」を採用します。これは、データセット名、パーティション タイプ、参照インスタンスの最初のセグメントで構成され、LLM にそれを完了するよう求めるプロンプトです。
LLM の出力が参照の後半のセグメントと正確または厳密に一致する場合、インスタンスは汚染されているとフラグが立てられます。
パーティション全体が汚染されているかどうかを理解するために、2 つのアイデアを提案します。
最初のアイデアでは、参照インスタンスとの平均オーバーラップ スコア (ROUGE または BLEURT によって測定) が、データセットとパーティション名を含まない一般的な命令と比較して、ガイド付き命令の方が統計的に有意に優れている場合に、データセット パーティションが汚染されているとマークされます。
2 番目のアイデアは、コンテキスト内学習プロンプトを備えた GPT-4 に基づく分類器が複数のインスタンスを汚染としてマークする場合、データセットを汚染としてマークします。
私たちの最良の方法は、人間の専門家による手動評価と比較した場合、LLM がトレーニングおよびテスト/検証パーティションを含む 7 つのデータセットで汚染されているかどうかを検出する際に 92% ~ 100% の精度を達成します。
さらに、我々の調査結果は、GPT-4 が AG News、WNLI、および XSum データセットで汚染されていることを示しています。

要約(オリジナル)

Data contamination, i.e., the presence of test data from downstream tasks in the training data of large language models (LLMs), is a potential major issue in understanding LLMs’ effectiveness on other tasks. We propose a straightforward yet effective method for identifying data contamination within LLMs. At its core, our approach starts by identifying potential contamination in individual instances that are drawn from a small random sample; using this information, our approach then assesses if an entire dataset partition is contaminated. To estimate contamination of individual instances, we employ ‘guided instruction:’ a prompt consisting of the dataset name, partition type, and the initial segment of a reference instance, asking the LLM to complete it. An instance is flagged as contaminated if the LLM’s output either exactly or closely matches the latter segment of the reference. To understand if an entire partition is contaminated, we propose two ideas. The first idea marks a dataset partition as contaminated if the average overlap score with the reference instances (as measured by ROUGE or BLEURT) is statistically significantly better with the guided instruction vs. a general instruction that does not include the dataset and partition name. The second idea marks a dataset as contaminated if a classifier based on GPT-4 with in-context learning prompting marks multiple instances as contaminated. Our best method achieves an accuracy between 92% and 100% in detecting if an LLM is contaminated with seven datasets, containing train and test/validation partitions, when contrasted with manual evaluation by human expert. Further, our findings indicate that GPT-4 is contaminated with AG News, WNLI, and XSum datasets.

arxiv情報

著者 Shahriar Golchin,Mihai Surdeanu
発行日 2023-08-16 16:48:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク