要約
大規模言語モデル (LLM) がテキスト生成タスクに使用されることが増えているため、その使用状況を監査し、アプリケーションを管理し、潜在的な害を軽減することが重要です。
既存の透かし技術は、生成されるテキストの品質やセマンティクスに大きな影響を与えることなく、人間には知覚できず機械が検出可能な単一のパターンを埋め込むのに効果的であることが示されています。
ただし、ウォーターマークの検出効率、つまり、重要な検出と編集後の堅牢性を主張するために必要なトークンの最小数については、まだ議論の余地があります。
この論文では、Duwak がトークンの確率分布とサンプリング スキームの両方に二重秘密パターンを埋め込むことで、透かし埋め込みの効率と品質を根本的に向上させることを提案します。
特定のトークンへの偏りによって引き起こされる表現の劣化を軽減するために、サンプリング スキームに透かしを入れる対照的な検索を設計します。これにより、トークンの繰り返しが最小限に抑えられ、多様性が強化されます。
Duwak 内の 2 つのウォーターマークの相互依存性を理論的に説明します。
私たちは、Llama2 上で、4 つの最先端の透かし技術およびそれらの組み合わせに対して、さまざまな編集後攻撃の下で Duwak を広範囲に評価しました。
私たちの結果は、Duwak マーク付きテキストは、検出に必要な最小限のトークン数で最高の透かし入りテキスト品質を実現し、既存のアプローチよりも最大 70% 少ないトークン数 (特にポストパラフレーズ下) を達成することを示しています。
要約(オリジナル)
As large language models (LLM) are increasingly used for text generation tasks, it is critical to audit their usages, govern their applications, and mitigate their potential harms. Existing watermark techniques are shown effective in embedding single human-imperceptible and machine-detectable patterns without significantly affecting generated text quality and semantics. However, the efficiency in detecting watermarks, i.e., the minimum number of tokens required to assert detection with significance and robustness against post-editing, is still debatable. In this paper, we propose, Duwak, to fundamentally enhance the efficiency and quality of watermarking by embedding dual secret patterns in both token probability distribution and sampling schemes. To mitigate expression degradation caused by biasing toward certain tokens, we design a contrastive search to watermark the sampling scheme, which minimizes the token repetition and enhances the diversity. We theoretically explain the interdependency of the two watermarks within Duwak. We evaluate Duwak extensively on Llama2 under various post-editing attacks, against four state-of-the-art watermarking techniques and combinations of them. Our results show that Duwak marked text achieves the highest watermarked text quality at the lowest required token count for detection, up to 70% tokens less than existing approaches, especially under post paraphrasing.
arxiv情報
著者 | Chaoyi Zhu,Jeroen Galjaard,Pin-Yu Chen,Lydia Y. Chen |
発行日 | 2024-08-08 13:33:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google