Three Bricks to Consolidate Watermarks for Large Language Models

要約

生成されたテキストと自然なテキストを区別する作業は、ますます困難になっています。
これに関連して、電子透かしは、生成されたテキストを特定のモデルに帰属させるための有望な技術として浮上します。
サンプリング生成プロセスを変更して、生成された出力に目に見えない痕跡を残し、後の検出を容易にします。
この研究では、3 つの理論的および経験的考慮事項に基づいて、大規模言語モデルのウォーターマークを統合します。
まず、偽陽性率が低い場合(10$^{\text{-6}}$ 未満)でも有効な、堅牢な理論的保証を提供する新しい統計テストを導入します。
次に、自然言語処理の分野における古典的なベンチマークを使用してウォーターマークの有効性を比較し、現実世界への適用可能性についての洞察を得ます。
3 番目に、LLM へのアクセスが利用可能なシナリオ向けの高度な検出スキームとマルチビット透かしを開発します。

要約(オリジナル)

The task of discerning between generated and natural texts is increasingly challenging. In this context, watermarking emerges as a promising technique for ascribing generated text to a specific model. It alters the sampling generation process so as to leave an invisible trace in the generated output, facilitating later detection. This research consolidates watermarks for large language models based on three theoretical and empirical considerations. First, we introduce new statistical tests that offer robust theoretical guarantees which remain valid even at low false-positive rates (less than 10$^{\text{-6}}$). Second, we compare the effectiveness of watermarks using classical benchmarks in the field of natural language processing, gaining insights into their real-world applicability. Third, we develop advanced detection schemes for scenarios where access to the LLM is available, as well as multi-bit watermarking.

arxiv情報

著者 Pierre Fernandez,Antoine Chaffin,Karim Tit,Vivien Chappelier,Teddy Furon
発行日 2023-11-08 18:56:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク