Debiasing Watermarks for Large Language Models via Maximal Coupling

要約

言語モデルの透かしは、人間と機械で生成されたテキストを区別し、デジタル通信の完全性と信頼性を維持するために不可欠です。
トークンセットを「グリーン」と「レッド」リストに分割する新しいグリーン/レッドリストの透かし式アプローチを提示し、グリーントークンの生成確率を微妙に増やします。
トークン分布バイアスを修正するために、我々の方法では、均一なコインフリップを使用してバイアス補正を適用するかどうかを決定し、結果を擬似ランダム透かし信号として埋め込んでいます。
理論分析により、このアプローチの偏りのない性質と堅牢な検出機能が確認されます。
実験結果は、高い検出可能性を維持しながらテキストの品質を維持することにより、以前の手法よりも優れていることを示しており、テキストの品質を改善することを目的としたターゲットを絞った修正に対する回復力を示しています。
この研究は、言語モデルの有望な透かしソリューションを提供し、テキストの品質への影響を最小限に抑えるための効果的な検出のバランスをとります。

要約(オリジナル)

Watermarking language models is essential for distinguishing between human and machine-generated text and thus maintaining the integrity and trustworthiness of digital communication. We present a novel green/red list watermarking approach that partitions the token set into “green” and “red” lists, subtly increasing the generation probability for green tokens. To correct token distribution bias, our method employs maximal coupling, using a uniform coin flip to decide whether to apply bias correction, with the result embedded as a pseudorandom watermark signal. Theoretical analysis confirms this approach’s unbiased nature and robust detection capabilities. Experimental results show that it outperforms prior techniques by preserving text quality while maintaining high detectability, and it demonstrates resilience to targeted modifications aimed at improving text quality. This research provides a promising watermarking solution for language models, balancing effective detection with minimal impact on text quality.

arxiv情報

著者 Yangxinyu Xie,Xiang Li,Tanwi Mallick,Weijie J. Su,Ruixun Zhang
発行日 2025-06-12 16:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG, stat.ME, stat.ML パーマリンク