要約
大規模言語モデル (LLM) の最近の進歩により、悪用のリスクが浮き彫りになり、LLM で生成されたコンテンツを正確に検出することについての懸念が高まっています。
検出問題に対する実行可能な解決策は、透かしとして知られる、知覚できない識別子を LLM に挿入することです。
これまでの研究では、不偏透かしが LLM 出力確率分布の期待値を維持することによって偽造不可能性を確保し、テキストの品質を維持することを実証しました。
ただし、以前の不偏透かし手法は、検出時にホワイトボックス LLM へのアクセスと入力プロンプトに依存しているため、ローカル展開には実用的ではありません。
さらに、これらの方法は、透かし検出のタイプ II エラーに対する統計的保証を提供できません。
この研究では、LLM へのアクセスも検出時のプロンプトも必要とせず、タイプ II エラーの統計的保証がある不偏透かしである Sampling One then Accepting (STA-1) 法を提案します。
さらに、我々は、不偏透かしにおける透かし強度とテキスト品質の間の新しいトレードオフを提案します。
低エントロピーのシナリオでは、不偏ウォーターマークはウォーターマークの強度と不満足な出力のリスクとの間のトレードオフに直面することを示します。
低エントロピーおよび高エントロピーのデータセットに関する実験結果は、STA-1 が不満足な出力のリスクを低く抑えながら、既存の不偏透かしに匹敵するテキスト品質と透かし強度を達成することを示しています。
この研究の実装コードはオンラインで入手できます。
要約(オリジナル)
Recent advancements in large language models (LLMs) have highlighted the risk of misuse, raising concerns about accurately detecting LLM-generated content. A viable solution for the detection problem is to inject imperceptible identifiers into LLMs, known as watermarks. Previous work demonstrates that unbiased watermarks ensure unforgeability and preserve text quality by maintaining the expectation of the LLM output probability distribution. However, previous unbiased watermarking methods are impractical for local deployment because they rely on accesses to white-box LLMs and input prompts during detection. Moreover, these methods fail to provide statistical guarantees for the type II error of watermark detection. This study proposes the Sampling One Then Accepting (STA-1) method, an unbiased watermark that does not require access to LLMs nor prompts during detection and has statistical guarantees for the type II error. Moreover, we propose a novel tradeoff between watermark strength and text quality in unbiased watermarks. We show that in low-entropy scenarios, unbiased watermarks face a tradeoff between watermark strength and the risk of unsatisfactory outputs. Experimental results on low-entropy and high-entropy datasets demonstrate that STA-1 achieves text quality and watermark strength comparable to existing unbiased watermarks, with a low risk of unsatisfactory outputs. Implementation codes for this study are available online.
arxiv情報
著者 | Minjia Mao,Dongjun Wei,Zeyu Chen,Xiao Fang,Michael Chau |
発行日 | 2024-05-23 14:17:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google