Detecting Pretraining Data from Large Language Models

要約

大規模言語モデル(LLM)は広く導入されているが、その学習に使用されたデータが公開されることはほとんどない。数兆トークンという途方もない規模のデータであることから、著作権で保護された素材や個人を特定できる情報、広く報告されている参照用ベンチマークのテストデータなど、潜在的に問題のあるテキストが含まれていることは間違いありません。しかし、現在のところ、どのような種類のデータがどの程度の割合で含まれているかを知る方法はない。本論文では、事前学習データ検出問題を研究する。すなわち、事前学習データを知ることなく、テキスト片とLLMへのブラックボックスアクセスが与えられた場合、モデルが提供されたテキストで学習されたかどうかを判断することができるだろうか?この研究を容易にするために、我々は動的ベンチマークWIKIMIAを導入する。WIKIMIAは、モデルの学習前後に作成されたデータを使用し、ゴールドトゥルース検出をサポートする。また、単純な仮説に基づく新しい検出手法Min-K%Probを紹介する:未見の例には、LLMの下で低い確率を持ついくつかの異常値単語が含まれる可能性が高いが、見た例にはそのような低い確率を持つ単語が含まれる可能性は低い。Min-K%Probは、事前学習コーパスに関する知識や追加学習なしで適用することができ、事前学習データに類似したデータで参照モデルを学習する必要がある従来の検出方法とは異なる。さらに、我々の実験では、Min-K%ProbがWIKIMIAにおいて、これらの従来の手法と比較して7.4%の改善を達成することが実証された。Min-K%Probを3つの実世界シナリオ、著作権保護された書籍の検出、汚染された下流例の検出、機械学習解除のプライバシー監査に適用し、一貫して効果的なソリューションであることを見出した。

要約(オリジナル)

Although large language models (LLMs) are widely deployed, the data used to train them is rarely disclosed. Given the incredible scale of this data, up to trillions of tokens, it is all but certain that it includes potentially problematic text such as copyrighted materials, personally identifiable information, and test data for widely reported reference benchmarks. However, we currently have no way to know which data of these types is included or in what proportions. In this paper, we study the pretraining data detection problem: given a piece of text and black-box access to an LLM without knowing the pretraining data, can we determine if the model was trained on the provided text? To facilitate this study, we introduce a dynamic benchmark WIKIMIA that uses data created before and after model training to support gold truth detection. We also introduce a new detection method Min-K% Prob based on a simple hypothesis: an unseen example is likely to contain a few outlier words with low probabilities under the LLM, while a seen example is less likely to have words with such low probabilities. Min-K% Prob can be applied without any knowledge about the pretraining corpus or any additional training, departing from previous detection methods that require training a reference model on data that is similar to the pretraining data. Moreover, our experiments demonstrate that Min-K% Prob achieves a 7.4% improvement on WIKIMIA over these previous methods. We apply Min-K% Prob to three real-world scenarios, copyrighted book detection, contaminated downstream example detection and privacy auditing of machine unlearning, and find it a consistently effective solution.

arxiv情報

著者 Weijia Shi,Anirudh Ajith,Mengzhou Xia,Yangsibo Huang,Daogao Liu,Terra Blevins,Danqi Chen,Luke Zettlemoyer
発行日 2023-11-03 05:27:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク