BiMarker: Enhancing Text Watermark Detection for Large Language Models with Bipolar Watermarks

要約

大規模言語モデル (LLM) の急速な普及により、誤用に対する懸念や、AI が生成したテキストと人間が書いたコンテンツを区別するという課題が生じています。
\kgw などの既存のウォーターマーク技術は、低いウォーターマーク強度、厳格な偽陽性要件、および低エントロピー シナリオの下では依然として制限に直面しています。
私たちの分析により、現在の検出方法は透かしの入っていないテキストの粗い推定に依存しており、透かしの検出可能性が制限されていることが明らかになりました。
私たちは、生成されたテキストを正極と負極に分割し、緑色のトークン カウントの違いを検出に利用する新しいアプローチである Bipolar Watermark (BiMarker) を提案します。
この差分メカニズムにより、透かし入りテキストの検出可能性が大幅に向上します。
理論分析と実験結果は、BiMarker の有効性と既存の最適化技術との互換性を実証し、LLM で生成されたコンテンツの透かしに新しい最適化次元を提供します。

要約(オリジナル)

The rapid proliferation of Large Language Models (LLMs) has raised concerns about misuse and the challenges of distinguishing AI-generated text from human-written content. Existing watermarking techniques, such as \kgw, still face limitations under low watermark strength, stringent false-positive requirements, and low-entropy scenarios. Our analysis reveals that current detection methods rely on coarse estimates of non-watermarked text, which constrains watermark detectability. We propose the Bipolar Watermark (BiMarker), a novel approach that divides generated text into positive and negative poles, leveraging the difference in green token counts for detection. This differential mechanism significantly enhances the detectability of watermarked text. Theoretical analysis and experimental results demonstrate BiMarker’s effectiveness and compatibility with existing optimization techniques, offering a new optimization dimension for watermarking in LLM-generated content.

arxiv情報

著者 Zhuang Li
発行日 2025-01-21 14:32:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク