Detecting Pretraining Data from Large Language Models

要約

大規模言語モデル (LLM) は広く導入されていますが、そのトレーニングに使用されるデータはほとんど公開されていません。
このデータの規模が信じられないほど大きい(最大数兆トークン)ことを考えると、著作権で保護された資料、個人を特定できる情報、広く報告されている参照ベンチマークのテスト データなど、潜在的に問題のあるテキストが含まれていることはほぼ確実です。
ただし、現時点では、これらのタイプのどのデータが含まれているか、またはその割合を知る方法はありません。
この論文では、事前トレーニング データ検出の問題について研究します。事前トレーニング データを知らずに、テキストの一部とブラック ボックスが LLM にアクセスした場合、モデルが提供されたテキストでトレーニングされたかどうかを判断できるでしょうか?
この研究を促進するために、モデルのトレーニングの前後に作成されたデータを使用してゴールド真実検出をサポートする動的ベンチマーク WIKIMIA を導入します。
また、単純な仮説に基づいた新しい検出方法 Min-K% Prob も導入します。つまり、目に見えない例には、LLM の下で確率の低い外れ値の単語がいくつか含まれる可能性が高く、一方、目に見える例には、そのような低い確率の単語が含まれる可能性は低いということです。

Min-K% Prob は、事前トレーニング データに類似したデータで参照モデルをトレーニングする必要がある以前の検出方法とは異なり、事前トレーニング コーパスや追加のトレーニングに関する知識がなくても適用できます。
さらに、私たちの実験では、Min-K% Prob がこれらの以前の方法と比較して WIKIMIA で 7.4% の改善を達成することを示しています。
私たちは、Min-K% Prob を 2 つの現実世界のシナリオ、著作権で保護された書籍の検出と汚染された下流サンプルの検出に適用し、それが一貫して効果的なソリューションであることを確認しました。

要約(オリジナル)

Although large language models (LLMs) are widely deployed, the data used to train them is rarely disclosed. Given the incredible scale of this data, up to trillions of tokens, it is all but certain that it includes potentially problematic text such as copyrighted materials, personally identifiable information, and test data for widely reported reference benchmarks. However, we currently have no way to know which data of these types is included or in what proportions. In this paper, we study the pretraining data detection problem: given a piece of text and black-box access to an LLM without knowing the pretraining data, can we determine if the model was trained on the provided text? To facilitate this study, we introduce a dynamic benchmark WIKIMIA that uses data created before and after model training to support gold truth detection. We also introduce a new detection method Min-K% Prob based on a simple hypothesis: an unseen example is likely to contain a few outlier words with low probabilities under the LLM, while a seen example is less likely to have words with such low probabilities. Min-K% Prob can be applied without any knowledge about the pretraining corpus or any additional training, departing from previous detection methods that require training a reference model on data that is similar to the pretraining data. Moreover, our experiments demonstrate that Min-K% Prob achieves a 7.4% improvement on WIKIMIA over these previous methods. We apply Min-K% Prob to two real-world scenarios, copyrighted book detection, and contaminated downstream example detection, and find it a consistently effective solution.

arxiv情報

著者 Weijia Shi,Anirudh Ajith,Mengzhou Xia,Yangsibo Huang,Daogao Liu,Terra Blevins,Danqi Chen,Luke Zettlemoyer
発行日 2023-10-25 17:21:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク