Provably Robust Watermarks for Open-Source Language Models

要約

最近の高品質な言語モデルの爆発的な増加により、AI が生成したテキストを識別するための新しい方法が必要になりました。
透かしは主要なソリューションであり、生成 AI の時代には不可欠なツールとなる可能性があります。
既存のアプローチは推論時に透かしを埋め込み、大規模言語モデル (LLM) 仕様と秘密のパラメータに大きく依存しているため、オープンソース設定には適用できません。
この研究では、オープンソース LLM 用の最初の透かしスキームを紹介します。
私たちのスキームはモデルのパラメーターを変更することで機能しますが、ウォーターマークはモデルの出力のみから検出できます。
おそらく驚くべきことに、敵の知識に関する特定の仮定の下では透かしが除去できないことを証明しました。
具体的なパラメータのインスタンス化の下での構築の動作を実証するために、OPT-6.7B と OPT-1.3B を使用した実験結果を示します。
トークン置換とモデルパラメータの摂動の両方に対する堅牢性を実証します。
これらの攻撃のうち、より強力なモデル摂動攻撃では、検出率を 50% に下げるために品質スコアを 100 点中 0 点に低下させる必要があることがわかりました。

要約(オリジナル)

The recent explosion of high-quality language models has necessitated new methods for identifying AI-generated text. Watermarking is a leading solution and could prove to be an essential tool in the age of generative AI. Existing approaches embed watermarks at inference and crucially rely on the large language model (LLM) specification and parameters being secret, which makes them inapplicable to the open-source setting. In this work, we introduce the first watermarking scheme for open-source LLMs. Our scheme works by modifying the parameters of the model, but the watermark can be detected from just the outputs of the model. Perhaps surprisingly, we prove that our watermarks are unremovable under certain assumptions about the adversary’s knowledge. To demonstrate the behavior of our construction under concrete parameter instantiations, we present experimental results with OPT-6.7B and OPT-1.3B. We demonstrate robustness to both token substitution and perturbation of the model parameters. We find that the stronger of these attacks, the model-perturbation attack, requires deteriorating the quality score to 0 out of 100 in order to bring the detection rate down to 50%.

arxiv情報

著者 Miranda Christ,Sam Gunn,Tal Malkin,Mariana Raykova
発行日 2024-10-24 15:44:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク