Demystifying Verbatim Memorization in Large Language Models

要約

大規模言語モデル (LLM) は長いシーケンスを逐語的に記憶することが多く、多くの場合、法的およびプライバシーに重大な影響を及ぼします。
これまでの多くの研究では、観察データを使用したそのような逐語的記憶について研究されてきました。
このような研究を補完するために、注入されたシーケンスを使用した Pythia チェックポイントからの事前トレーニングを継続することにより、制御された環境で逐語的な暗記を研究するためのフレームワークを開発しました。
私たちは、(1) 逐語的に暗記するには、かなりの量の繰り返しが必要であることを発見しました。
(2) 後の (そしておそらくより良い) チェックポイントは、配布範囲外のシーケンスであっても、シーケンスを逐語的に記憶する可能性が高くなります。
(3) 記憶されたシーケンスの生成は、高レベルの機能をエンコードし、一般的な言語モデリング機能を重要に利用する分散モデル状態によってトリガーされます。
これらの洞察に基づいて、私たちは非学習方法を評価するためのストレステストを開発しましたが、その方法では逐語的に記憶した情報を削除できないことが多く、同時にLMを低下させることがわかりました。
全体として、これらの発見は、逐語的な暗記が特定のモデルの重みやメカニズムに由来するという仮説に疑問を投げかけます。
むしろ、逐語的な記憶は LM の一般的な機能と絡み合っているため、モデルの品質を低下させることなく分離して抑制することは非常に困難です。

要約(オリジナル)

Large Language Models (LLMs) frequently memorize long sequences verbatim, often with serious legal and privacy implications. Much prior work has studied such verbatim memorization using observational data. To complement such work, we develop a framework to study verbatim memorization in a controlled setting by continuing pre-training from Pythia checkpoints with injected sequences. We find that (1) non-trivial amounts of repetition are necessary for verbatim memorization to happen; (2) later (and presumably better) checkpoints are more likely to verbatim memorize sequences, even for out-of-distribution sequences; (3) the generation of memorized sequences is triggered by distributed model states that encode high-level features and makes important use of general language modeling capabilities. Guided by these insights, we develop stress tests to evaluate unlearning methods and find they often fail to remove the verbatim memorized information, while also degrading the LM. Overall, these findings challenge the hypothesis that verbatim memorization stems from specific model weights or mechanisms. Rather, verbatim memorization is intertwined with the LM’s general capabilities and thus will be very difficult to isolate and suppress without degrading model quality.

arxiv情報

著者 Jing Huang,Diyi Yang,Christopher Potts
発行日 2024-07-25 07:10:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク