Proving membership in LLM pretraining data via data watermarks

要約

著作権者の作品が LLM の事前トレーニングで使用されたかどうかを検出することは、重要な問題となる可能性があります。
この研究では、データ透かしを使用して、権利者が複数のトレーニング文書を寄稿し、公開前に透かしを入れた場合に限り、ブラックボックスモデルへのアクセスのみで原則に基づいた検出を可能にすることを提案しています。
ランダムにサンプリングされたデータ ウォーターマークを適用することで、検出を仮説検定として組み立てることができ、誤検出率が保証されます。
私たちは 2 つのウォーターマークを研究します。1 つはランダムなシーケンスを挿入するもので、もう 1 つは文字を Unicode の類似文字でランダムに置換するものです。
まず、透かし設計の 3 つの側面 (透かしの長さ、重複の数、干渉) が仮説検定の検出力にどのように影響するかを示します。
次に、モデルとデータセットのスケーリングの下で​​透かしの検出強度がどのように変化するかを調査します。データセットのサイズが増加すると透かしの強度は低下しますが、モデルのサイズが増加しても透かしは強力なままです。
最後に、SHA ハッシュを自然の透かしとみなして、少なくとも 90 回発生する限り、BLOOM-176B のトレーニング データからハッシュを確実に検出できることを示します。
総合すると、私たちの結果は、現実世界で使用されるデータ ウォーターマークの有望な将来を示しています。

要約(オリジナル)

Detecting whether copyright holders’ works were used in LLM pretraining is poised to be an important problem. This work proposes using data watermarks to enable principled detection with only black-box model access, provided that the rightholder contributed multiple training documents and watermarked them before public release. By applying a randomly sampled data watermark, detection can be framed as hypothesis testing, which provides guarantees on the false detection rate. We study two watermarks: one that inserts random sequences, and another that randomly substitutes characters with Unicode lookalikes. We first show how three aspects of watermark design — watermark length, number of duplications, and interference — affect the power of the hypothesis test. Next, we study how a watermark’s detection strength changes under model and dataset scaling: while increasing the dataset size decreases the strength of the watermark, watermarks remain strong if the model size also increases. Finally, we view SHA hashes as natural watermarks and show that we can robustly detect hashes from BLOOM-176B’s training data, as long as they occurred at least 90 times. Together, our results point towards a promising future for data watermarks in real world use.

arxiv情報

著者 Johnny Tian-Zheng Wei,Ryan Yixiang Wang,Robin Jia
発行日 2024-02-16 18:49:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク