Mosaic Memory: Fuzzy Duplication in Copyright Traps for Large Language Models

要約

大規模言語モデル (LLM) の開発に使用される膨大なデータセットには、通常、コンテンツ作成者の同意なしに、著作権で保護されたコンテンツが含まれていることがよくあります。
著作権トラップをオリジナルのコンテンツに挿入し、新しくリリースされた LLM でのコンテンツの検出可能性を向上させることが提案されています。
ただし、トラップは一意のテキスト シーケンスの正確な複製に依存しているため、一般的に導入されているデータ重複排除技術に対して脆弱になります。
ここでは、重複全体にわずかな変更を加えることを特徴とするファジー著作権トラップの生成を提案します。
1.3B LLM の微調整データに注入すると、ファジー トラップ シーケンスが正確な複製とほぼ同様に記憶されることがわかります。
具体的には、ファジー重複間で 4 つのトークンが置き換えられた場合、メンバーシップ推論攻撃 (MIA) ROC AUC は 0.90 から 0.87 に低下するだけです。
また、あいまいな重複間の正確な重複を最小限に抑えるように置換位置を選択すると、同様の記憶が得られる一方で、あいまいな重複が重複排除プロセスによって削除される可能性が非常に低くなることもわかりました。
最後に、LLM があいまいな重複を介して記憶するという事実は、自然に発生する重複に依存する LLM 記憶の研究に疑問を投げかけると主張します。
実際、一般的に使用されるトレーニング データセットである The Pile には、大量のあいまいな重複が含まれていることがわかりました。
これは、LLM 暗記の事後研究においてこれまで解明されていなかった交絡因子を導入し、プライバシー保護技術としての (正確な) データ重複排除の有効性に疑問を投げかけます。

要約(オリジナル)

The immense datasets used to develop Large Language Models (LLMs) often include copyright-protected content, typically without the content creator’s consent. Copyright traps have been proposed to be injected into the original content, improving content detectability in newly released LLMs. Traps, however, rely on the exact duplication of a unique text sequence, leaving them vulnerable to commonly deployed data deduplication techniques. We here propose the generation of fuzzy copyright traps, featuring slight modifications across duplication. When injected in the fine-tuning data of a 1.3B LLM, we show fuzzy trap sequences to be memorized nearly as well as exact duplicates. Specifically, the Membership Inference Attack (MIA) ROC AUC only drops from 0.90 to 0.87 when 4 tokens are replaced across the fuzzy duplicates. We also find that selecting replacement positions to minimize the exact overlap between fuzzy duplicates leads to similar memorization, while making fuzzy duplicates highly unlikely to be removed by any deduplication process. Lastly, we argue that the fact that LLMs memorize across fuzzy duplicates challenges the study of LLM memorization relying on naturally occurring duplicates. Indeed, we find that the commonly used training dataset, The Pile, contains significant amounts of fuzzy duplicates. This introduces a previously unexplored confounding factor in post-hoc studies of LLM memorization, and questions the effectiveness of (exact) data deduplication as a privacy protection technique.

arxiv情報

著者 Igor Shilov,Matthieu Meeus,Yves-Alexandre de Montjoye
発行日 2024-05-24 13:05:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク