Copyright Traps for Large Language Models

要約

大規模言語モデル (LLM) をトレーニングするための著作権で保護されたコンテンツの公正使用の問題は、非常に活発に議論されています。
ドキュメントレベルの推論は、新しいタスクとして提案されています。つまり、トレーニングされたモデルへのブラック ボックス アクセスから、トレーニング中にコンテンツの一部が見られたかどうかを推論します。
ただし、SOTA メソッドは、コンテンツ (の一部) の自然に発生する記憶に依存しています。
多くのことを記憶するモデルに対しては非常に効果的ですが、自然に記憶しないモデルに対しては機能しないという仮説を立て、後で確認します。
中型の1Bモデル。
ここでは、暗記が自然に発生しないモデルに焦点を当て、LLM での著作権で保護された素材の使用を検出するために、オリジナルのコンテンツに架空のエントリを含める著作権トラップを使用することを提案します。
私たちは実験セットアップを慎重に設計し、元のコンテンツ (書籍) にトラップをランダムに挿入し、1.3B LLM をトレーニングします。
まず、ターゲット モデルでのコンテンツの使用が既存の方法では検出できないことを検証します。
次に、直観に反して、かなりの回数 (100 回) 繰り返された中程度の長さのトラップ文でさえ、既存の方法では検出できないことを示します。
ただし、何度も繰り返された長いシーケンスは確実に検出され (AUC=0.75)、著作権トラップとして使用できることを示します。
私たちは、シーケンスが表示される回数によって検出可能性がどのように向上するか、複雑度の高いシーケンスがより多く記憶される傾向があること、コンテキストを考慮することで検出可能性がどのように向上するかを研究することで、これらの結果をさらに改善しました。

要約(オリジナル)

Questions of fair use of copyright-protected content to train Large Language Models (LLMs) are being very actively debated. Document-level inference has been proposed as a new task: inferring from black-box access to the trained model whether a piece of content has been seen during training. SOTA methods however rely on naturally occurring memorization of (part of) the content. While very effective against models that memorize a lot, we hypothesize–and later confirm–that they will not work against models that do not naturally memorize, e.g. medium-size 1B models. We here propose to use copyright traps, the inclusion of fictitious entries in original content, to detect the use of copyrighted materials in LLMs with a focus on models where memorization does not naturally occur. We carefully design an experimental setup, randomly inserting traps into original content (books) and train a 1.3B LLM. We first validate that the use of content in our target model would be undetectable using existing methods. We then show, contrary to intuition, that even medium-length trap sentences repeated a significant number of times (100) are not detectable using existing methods. However, we show that longer sequences repeated a large number of times can be reliably detected (AUC=0.75) and used as copyright traps. We further improve these results by studying how the number of times a sequence is seen improves detectability, how sequences with higher perplexity tend to be memorized more, and how taking context into account further improves detectability.

arxiv情報

著者 Matthieu Meeus,Igor Shilov,Manuel Faysse,Yves-Alexandre de Montjoye
発行日 2024-02-14 18:09:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク