要約
フロンティア AI システムは社会全体に変革的な影響を与えていますが、そのようなメリットにはコストが伴います。個人データやプライベート データを含む Web スケールのデータセットでトレーニングされたモデルは、データのプライバシーとセキュリティについて深刻な懸念を引き起こします。
言語モデルは、潜在的に機密情報や専有情報を含む広範なコーパスに基づいてトレーニングされますが、モデルの応答によってそのような情報の一部が明らかになるデータ漏洩のリスクは、依然として十分に理解されていません。
これまでの研究では、どのような要因が記憶を促進するのかが調査され、配列の複雑さと繰り返しの数が記憶を促進することが特定されました。
ここでは、トレーニングよりも暗記の進化に焦点を当てます。
まず、シーケンスを記憶する確率は、データ内にそのシーケンスが存在する回数に応じて対数的に増加するという調査結果を再現することから始めます。
次に、最初の遭遇以降は明らかに記憶されていないシーケンスが、その後の遭遇がなくてもトレーニングの過程を通じて「発見」される可能性があることを示します。これは、「潜在記憶」と呼ばれる現象です。
潜在的な記憶の存在は、記憶されたシーケンスがモデルの最終チェックポイントで隠される可能性があるものの、簡単に回復可能なままであるため、データプライバシーにとって課題となります。
この目的を達成するために、我々は、潜在的な記憶されたシーケンスを高精度で明らかにするための、クロスエントロピー損失に依存する診断テストを開発します。
要約(オリジナル)
Frontier AI systems are making transformative impacts across society, but such benefits are not without costs: models trained on web-scale datasets containing personal and private data raise profound concerns about data privacy and security. Language models are trained on extensive corpora including potentially sensitive or proprietary information, and the risk of data leakage – where the model response reveals pieces of such information – remains inadequately understood. Prior work has investigated what factors drive memorization and have identified that sequence complexity and the number of repetitions drive memorization. Here, we focus on the evolution of memorization over training. We begin by reproducing findings that the probability of memorizing a sequence scales logarithmically with the number of times it is present in the data. We next show that sequences which are apparently not memorized after the first encounter can be ‘uncovered’ throughout the course of training even without subsequent encounters, a phenomenon we term ‘latent memorization’. The presence of latent memorization presents a challenge for data privacy as memorized sequences may be hidden at the final checkpoint of the model but remain easily recoverable. To this end, we develop a diagnostic test relying on the cross entropy loss to uncover latent memorized sequences with high accuracy.
arxiv情報
著者 | Sunny Duan,Mikail Khona,Abhiram Iyer,Rylan Schaeffer,Ila R Fiete |
発行日 | 2024-07-25 14:33:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google