Entropy-Guided Watermarking for LLMs: A Test-Time Framework for Robust and Traceable Text Generation

要約

大規模な言語モデル(LLMS)の急速な発展は、コンテンツのトレーサビリティと潜在的な誤用に関する懸念を強化しています。
サンプリングされたテキストの既存の透かしスキームは、テキストの品質を維持し、さまざまな攻撃に対する堅牢な検出を確保することとの間のトレードオフに直面することがよくあります。
これらの問題に対処するために、累積透かしのエントロピーのしきい値を導入することにより、検出可能性とテキストの品質の両方を改善する新しい透かしスキームを提案します。
私たちのアプローチは、既存のサンプリング関数と互換性があり、一般化され、適応性が向上します。
複数のLLMの実験結果は、私たちのスキームが既存の方法を大幅に上回り、高度に使用されているデータセット(MathやGSM8Kなど)で80を超える改善を達成し、高い検出精度を維持することを示しています。

要約(オリジナル)

The rapid development of Large Language Models (LLMs) has intensified concerns about content traceability and potential misuse. Existing watermarking schemes for sampled text often face trade-offs between maintaining text quality and ensuring robust detection against various attacks. To address these issues, we propose a novel watermarking scheme that improves both detectability and text quality by introducing a cumulative watermark entropy threshold. Our approach is compatible with and generalizes existing sampling functions, enhancing adaptability. Experimental results across multiple LLMs show that our scheme significantly outperforms existing methods, achieving over 80\% improvements on widely-used datasets, e.g., MATH and GSM8K, while maintaining high detection accuracy.

arxiv情報

著者 Shizhan Cai,Liang Ding,Dacheng Tao
発行日 2025-04-16 14:16:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク