Mark My Words: Analyzing and Evaluating Language Model Watermarks

要約

近年、大規模な言語モデルの能力が著しく向上しており、その悪用に対する懸念も高まっている。この文脈では、機械が生成したテキストと人間が作成したコンテンツを区別する能力が重要になる。先行研究では、テキストを電子透かしにする数多くのスキームが提案されているが、体系的な評価フレームワークの恩恵を受けている。本研究では、画像透かしとは対照的に、テキスト透かし技術に焦点を当て、様々なタスクや実用的な攻撃の下での包括的なベンチマークを提案する。我々は3つの主要なメトリクスに焦点を当てている:品質、サイズ(例えば、透かしを検出するために必要なトークンの数)、および耐改ざん性。現在の電子透かし技術は、導入するのに十分な性能を持っている:Kirchenbauerらは、Llama2-7B-chatを100トークン未満で、知覚可能な品質の損失なしに電子透かしにすることができ、温度に関係なく、単純な攻撃に対する優れた耐タンパー性を持っている。我々は、電子透かしの識別不可能性は強すぎる要件であると主張する:ロジット分布をわずかに修正するスキームは、生成品質の顕著な損失なしに、識別不可能な対応するスキームよりも優れている。ベンチマークを公開する。

要約(オリジナル)

The capabilities of large language models have grown significantly in recent years and so too have concerns about their misuse. In this context, the ability to distinguish machine-generated text from human-authored content becomes important. Prior works have proposed numerous schemes to watermark text, which would benefit from a systematic evaluation framework. This work focuses on text watermarking techniques – as opposed to image watermarks – and proposes a comprehensive benchmark for them under different tasks as well as practical attacks. We focus on three main metrics: quality, size (e.g. the number of tokens needed to detect a watermark), and tamper-resistance. Current watermarking techniques are good enough to be deployed: Kirchenbauer et al. can watermark Llama2-7B-chat with no perceivable loss in quality in under 100 tokens, and with good tamper-resistance to simple attacks, regardless of temperature. We argue that watermark indistinguishability is too strong a requirement: schemes that slightly modify logit distributions outperform their indistinguishable counterparts with no noticeable loss in generation quality. We publicly release our benchmark.

arxiv情報

著者 Julien Piet,Chawin Sitawarin,Vivian Fang,Norman Mu,David Wagner
発行日 2023-12-01 01:22:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク