Can Watermarked LLMs be Identified by Users via Crafted Prompts?

要約

大規模な言語モデル(LLMS)のテキスト透かしは、LLM出力の検出と誤用の防止に大きな進歩を遂げました。
現在の透け式技術は、高い検出可能性、テキストの品質への影響を最小限に抑え、テキスト編集に対する堅牢性を提供します。
ただし、現在の研究には、LLMサービスにおける透かし技術の知覚性に関する調査がありません。
LLMプロバイダーは、ユーザーがサービスを使用する意欲を低下させ、攻撃に対してより脆弱にするために、実際のシナリオで透かしの存在を開示したくないため、これは非常に重要です。
この作業は、透かし式LLMの知覚性を調査する最初の作業です。
よく設計されたプロンプトを使用してLLMに透け式を検出するウォータープローブと呼ばれる識別アルゴリズムを設計します。
私たちの重要な動機は、現在の透かし式LLMが同じ透かしキーの下で一貫したバイアスを公開し、異なる透かし鍵の下でプロンプト間で同様の違いをもたらすことです。
実験では、ほぼすべての主流の透かし式アルゴリズムが適切に設計されたプロンプトで簡単に識別されることを示していますが、水プローブは非水マークのLLMの最小の偽陽性率を示しています。
最後に、透かし式LLMSの知覚性を高めるための鍵は、透かしのキー選択のランダム性を高めることであると提案します。
これに基づいて、ウォーターバッグ戦略を導入します。これにより、複数の透かしキーを統合することで透かしの知覚性が大幅に向上します。

要約(オリジナル)

Text watermarking for Large Language Models (LLMs) has made significant progress in detecting LLM outputs and preventing misuse. Current watermarking techniques offer high detectability, minimal impact on text quality, and robustness to text editing. However, current researches lack investigation into the imperceptibility of watermarking techniques in LLM services. This is crucial as LLM providers may not want to disclose the presence of watermarks in real-world scenarios, as it could reduce user willingness to use the service and make watermarks more vulnerable to attacks. This work is the first to investigate the imperceptibility of watermarked LLMs. We design an identification algorithm called Water-Probe that detects watermarks through well-designed prompts to the LLM. Our key motivation is that current watermarked LLMs expose consistent biases under the same watermark key, resulting in similar differences across prompts under different watermark keys. Experiments show that almost all mainstream watermarking algorithms are easily identified with our well-designed prompts, while Water-Probe demonstrates a minimal false positive rate for non-watermarked LLMs. Finally, we propose that the key to enhancing the imperceptibility of watermarked LLMs is to increase the randomness of watermark key selection. Based on this, we introduce the Water-Bag strategy, which significantly improves watermark imperceptibility by merging multiple watermark keys.

arxiv情報

著者 Aiwei Liu,Sheng Guan,Yiming Liu,Leyi Pan,Yifei Zhang,Liancheng Fang,Lijie Wen,Philip S. Yu,Xuming Hu
発行日 2025-01-28 06:55:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.CR, I.2.7 パーマリンク