On the Reliability of Watermarks for Large Language Models

要約

LLMが一般的になるにつれて、機械が生成したテキストは、スパムやソーシャルメディアのボット、価値のないコンテンツでインターネットを氾濫させる可能性がある。電子透かしは、LLMで生成されたテキストの検出と文書化を可能にすることで、このような害を軽減するためのシンプルで効果的な戦略である。しかし、重大な疑問が残る:電子透かしは、野生の現実的な設定において、どの程度信頼できるのだろうか?そこでは、透かしの入ったテキストはユーザーのニーズに合わせて修正されたり、検出を避けるために完全に書き直されたりする可能性がある。 我々は、透かしを入れたテキストが人間によって書き直されたり、透かしの入っていないLLMによって言い換えられたり、より長い手書きの文書に混ぜられたりした後の、透かしのロバスト性を研究している。我々は、透かしは人間や機械による言い換えの後でも検出可能であることを発見した。これらの攻撃は透かしの強度を弱めるが、言い換えは統計的に原文のn-gramやさらに長い断片を漏らす可能性が高いため、十分なトークンが観測されれば高い信頼度で検出される。例えば、1e-5の偽陽性率を設定した場合、人間による強い言い換えの後、透かしは平均800トークンを観察した後に検出可能である。また、大きな文書の中に埋め込まれた透かしテキストの短いスパンに対して敏感な、様々な新しい検出スキームを検討し、他の種類の検出器に対する透かしの頑健性を比較する。

要約(オリジナル)

As LLMs become commonplace, machine-generated text has the potential to flood the internet with spam, social media bots, and valueless content. Watermarking is a simple and effective strategy for mitigating such harms by enabling the detection and documentation of LLM-generated text. Yet a crucial question remains: How reliable is watermarking in realistic settings in the wild? There, watermarked text may be modified to suit a user’s needs, or entirely rewritten to avoid detection. We study the robustness of watermarked text after it is re-written by humans, paraphrased by a non-watermarked LLM, or mixed into a longer hand-written document. We find that watermarks remain detectable even after human and machine paraphrasing. While these attacks dilute the strength of the watermark, paraphrases are statistically likely to leak n-grams or even longer fragments of the original text, resulting in high-confidence detections when enough tokens are observed. For example, after strong human paraphrasing the watermark is detectable after observing 800 tokens on average, when setting a 1e-5 false positive rate. We also consider a range of new detection schemes that are sensitive to short spans of watermarked text embedded inside a large document, and we compare the robustness of watermarking to other kinds of detectors.

arxiv情報

著者 John Kirchenbauer,Jonas Geiping,Yuxin Wen,Manli Shu,Khalid Saifullah,Kezhi Kong,Kasun Fernando,Aniruddha Saha,Micah Goldblum,Tom Goldstein
発行日 2023-06-30 18:18:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク