Uncovering Latent Memories: Assessing Data Leakage and Memorization Patterns in Large Language Models

要約

大規模な言語モデルの急増により、自然言語処理タスクに革命が起こりましたが、データのプライバシーとセキュリティに関して深刻な懸念が生じています。
言語モデルは、潜在的に機密情報や専有情報を含む広範なコーパスに基づいてトレーニングされますが、モデルの応答によってそのような情報の一部が明らかになるデータ漏洩のリスクは、依然として十分に理解されていません。
この研究では、トレーニングによる記憶パターンの進化に焦点を当て、機械学習モデルにおける記憶現象を定量化することで、データ漏洩の影響を受けやすいかを調査します。
繰り返しが記憶にどのような影響を与えるかを評価することで、トレーニング データの統計的特性がモデル内でエンコードされた記憶にどのような影響を与えるかを調査します。
シーケンスを記憶する確率は、それがデータ内に存在する回数に応じて対数的に増加するという発見を再現します。
さらに、最初の遭遇後に明らかに記憶されていないシーケンスは、その後の遭遇がなくても、トレーニングの過程を通じて明らかにされる可能性があることがわかりました。
これらの潜在的な記憶シーケンスの存在は、モデルの最終チェックポイントで隠蔽される可能性があるため、データ プライバシーにとって課題となります。
この目的を達成するために、我々は、相互エントロピー損失を考慮して、これらの潜在的な記憶シーケンスを明らかにするための診断テストを開発します。

要約(オリジナル)

The proliferation of large language models has revolutionized natural language processing tasks, yet it raises profound concerns regarding data privacy and security. Language models are trained on extensive corpora including potentially sensitive or proprietary information, and the risk of data leakage — where the model response reveals pieces of such information — remains inadequately understood. This study examines susceptibility to data leakage by quantifying the phenomenon of memorization in machine learning models, focusing on the evolution of memorization patterns over training. We investigate how the statistical characteristics of training data influence the memories encoded within the model by evaluating how repetition influences memorization. We reproduce findings that the probability of memorizing a sequence scales logarithmically with the number of times it is present in the data. Furthermore, we find that sequences which are not apparently memorized after the first encounter can be uncovered throughout the course of training even without subsequent encounters. The presence of these latent memorized sequences presents a challenge for data privacy since they may be hidden at the final checkpoint of the model. To this end, we develop a diagnostic test for uncovering these latent memorized sequences by considering their cross entropy loss.

arxiv情報

著者 Sunny Duan,Mikail Khona,Abhiram Iyer,Rylan Schaeffer,Ila R Fiete
発行日 2024-06-20 17:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, q-bio.NC パーマリンク