On the Reliability of Watermarks for Large Language Models

要約

LLM が一般的になるにつれ、機械生成されたテキストがスパム、ソーシャル メディア ボット、価値のないコンテンツでインターネットに溢れる可能性があります。
透かしは、LLM によって生成されたテキストの検出と文書化を可能にすることで、そのような害を軽減するためのシンプルで効果的な戦略です。
しかし、重要な疑問が残ります。実際の現実的な環境において、透かしはどの程度信頼できるのでしょうか?
そこでは、透かし入りのテキストがユーザーのニーズに合わせて変更されたり、検出を避けるために完全に書き換えられたりすることがあります。
私たちは、人間によって書き直された後、透かしの入っていない LLM によって言い換えられた後、またはより長い手書き文書に混合された後の、透かし入りテキストの堅牢性を研究します。
人間や機械が言い換えた後でも、透かしは検出可能なままであることがわかりました。
これらの攻撃は透かしの強度を弱めますが、言い換えは統計的に n グラムまたは元のテキストのより長い断片を漏洩する可能性が高く、十分なトークンが観察された場合には信頼性の高い検出が行われます。
たとえば、人間による強力な言い換えの後、1e-5 の偽陽性率を設定すると、平均 800 個のトークンを観察した後にウォーターマークが検出可能になります。
また、大きな文書内に埋め込まれた短いスパンの透かし入りテキストに敏感な一連の新しい検出スキームを検討し、透かし入れの堅牢性を他の種類の検出器と比較します。

要約(オリジナル)

As LLMs become commonplace, machine-generated text has the potential to flood the internet with spam, social media bots, and valueless content. Watermarking is a simple and effective strategy for mitigating such harms by enabling the detection and documentation of LLM-generated text. Yet a crucial question remains: How reliable is watermarking in realistic settings in the wild? There, watermarked text may be modified to suit a user’s needs, or entirely rewritten to avoid detection. We study the robustness of watermarked text after it is re-written by humans, paraphrased by a non-watermarked LLM, or mixed into a longer hand-written document. We find that watermarks remain detectable even after human and machine paraphrasing. While these attacks dilute the strength of the watermark, paraphrases are statistically likely to leak n-grams or even longer fragments of the original text, resulting in high-confidence detections when enough tokens are observed. For example, after strong human paraphrasing the watermark is detectable after observing 800 tokens on average, when setting a 1e-5 false positive rate. We also consider a range of new detection schemes that are sensitive to short spans of watermarked text embedded inside a large document, and we compare the robustness of watermarking to other kinds of detectors.

arxiv情報

著者 John Kirchenbauer,Jonas Geiping,Yuxin Wen,Manli Shu,Khalid Saifullah,Kezhi Kong,Kasun Fernando,Aniruddha Saha,Micah Goldblum,Tom Goldstein
発行日 2023-06-09 17:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク