要約
大規模な言語モデルは、著作権違反のリスクをもたらすトレーニングデータの一部を記憶することが知られています。
このリスクを体系的に調べるために、83Bトークンで言語モデル(1b/3b/8b)をゼロから除去し、ウェブスケールデータと、以前の作業より少なくとも10倍長い間制御周波数で著作権で保護されたコンテンツをシミュレートするために使用されるパブリックドメインブックと混合します。
それにより、2つの重要な調査結果で特徴付けられる現象であるオフセット効果を特定しました。(1)逐語的な暗記は、コンテキストウィンドウの最初から描かれた短い接頭辞によって最も強く引き起こされ、参考文献の長さが増加するにつれて記憶が直感的に減少します。
(2)プレフィックスがコンテキストウィンドウの最初のトークンからオフセットを開始したときの逐語的リコールの急激な低下。
これは位置の脆弱性に起因します。モデルは、コンテキストウィンドウの初期のトークンに検索アンカーとして不釣り合いに依存しており、わずかなシフトに敏感にします。
さらに、モデルが記憶されたコンテンツを取得できない場合、退化したテキストがしばしば生成されることがよくあります。
これらの発見を活用すると、コンテキストウィンドウに敏感なデータをより深く変えることで、抽出可能な暗記と変性の両方が抑制されることが示されます。
我々の結果は、ポジションオフセットは、トレーニングシーケンスの開始からのみ調査することにより、以前の作業が暗黙的に均一性を想定していたため、記憶のリスクを評価するための重要かつ以前見落とされた軸であることを示唆しています。
要約(オリジナル)
Large language models are known to memorize parts of their training data, posing risk of copyright violations. To systematically examine this risk, we pretrain language models (1B/3B/8B) from scratch on 83B tokens, mixing web-scale data with public domain books used to simulate copyrighted content at controlled frequencies at lengths at least ten times longer than prior work. We thereby identified the offset effect, a phenomenon characterized by two key findings: (1) verbatim memorization is most strongly triggered by short prefixes drawn from the beginning of the context window, with memorization decreasing counterintuitively as prefix length increases; and (2) a sharp decline in verbatim recall when prefix begins offset from the initial tokens of the context window. We attribute this to positional fragility: models rely disproportionately on the earliest tokens in their context window as retrieval anchors, making them sensitive to even slight shifts. We further observe that when the model fails to retrieve memorized content, it often produces degenerated text. Leveraging these findings, we show that shifting sensitive data deeper into the context window suppresses both extractable memorization and degeneration. Our results suggest that positional offset is a critical and previously overlooked axis for evaluating memorization risks, since prior work implicitly assumed uniformity by probing only from the beginning of training sequences.
arxiv情報
著者 | Yixuan Xu,Antoni-Joan Solergibert i Llaquet,Antoine Bosselut,Imanol Schlag |
発行日 | 2025-05-28 15:39:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google