Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method

要約

大規模な言語モデル(LLMS)のトレーニングコーパスの規模が増えると、モデル開発者はデータの詳細を開示することにますます消極的になります。
この透明性の欠如は、科学的評価と倫理的展開に課題をもたらします。
最近、特定のテキストがブラックボックスアクセスを介したLLMのトレーニングデータの一部であるかどうかを推測する事前削除データ検出アプローチが調査されています。
最先端の結果を達成したMin-K \%Probメソッドは、非訓練の例には、トークンの確率が低いいくつかの外れ値の単語が含まれている傾向があると想定しています。
ただし、LLMSによって予測される高い確率を持つ多くの一般的な単語を含む非トレーニングテキストを誤分類する傾向があるため、有効性は制限される場合があります。
この問題に対処するために、Divergence-from-Randomnessコンセプトに触発された発散ベースのキャリブレーション方法を紹介し、データ検出前のトークン確率を調整します。
トークン確率分布とトークン頻度分布との間の交差エントロピー(つまり、発散)を計算して、検出スコアを導き出します。
中国語のテキストでのLLMSの検出アプローチのパフォーマンスを評価するために、中国語のベンチマークであるPatentmiaを開発しました。
英語のベンチマークとPatentmiaの実験結果は、提案された方法が既存の方法を大幅に上回ることを示しています。
当社のコードとPatentmiaのベンチマークは、https://github.com/zhang-wei-chao/dc-pddで入手できます。

要約(オリジナル)

As the scale of training corpora for large language models (LLMs) grows, model developers become increasingly reluctant to disclose details on their data. This lack of transparency poses challenges to scientific evaluation and ethical deployment. Recently, pretraining data detection approaches, which infer whether a given text was part of an LLM’s training data through black-box access, have been explored. The Min-K\% Prob method, which has achieved state-of-the-art results, assumes that a non-training example tends to contain a few outlier words with low token probabilities. However, the effectiveness may be limited as it tends to misclassify non-training texts that contain many common words with high probabilities predicted by LLMs. To address this issue, we introduce a divergence-based calibration method, inspired by the divergence-from-randomness concept, to calibrate token probabilities for pretraining data detection. We compute the cross-entropy (i.e., the divergence) between the token probability distribution and the token frequency distribution to derive a detection score. We have developed a Chinese-language benchmark, PatentMIA, to assess the performance of detection approaches for LLMs on Chinese text. Experimental results on English-language benchmarks and PatentMIA demonstrate that our proposed method significantly outperforms existing methods. Our code and PatentMIA benchmark are available at https://github.com/zhang-wei-chao/DC-PDD.

arxiv情報

著者 Weichao Zhang,Ruqing Zhang,Jiafeng Guo,Maarten de Rijke,Yixing Fan,Xueqi Cheng
発行日 2025-04-01 05:09:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク