WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models

要約

大規模言語モデル (LLM) の潜在的な誤用を軽減するために、最近の研究では、生成プロセスを制限して透かし検出のための目に見えない痕跡を残す透かしアルゴリズムが開発されました。
タスクの 2 段階の性質により、ほとんどの研究では生成と検出を別々に評価するため、公平で徹底的かつ適切な評価を行うことが困難になります。
このペーパーでは、LLM ウォーターマークの最初の包括的なベンチマークである WaterBench を紹介します。このベンチマークでは、次の 3 つの重要な要素を設計します。 (1) ベンチマーク手順では、同一の比較を確実にするために、最初に各ウォーターマーク手法のハイパーパラメータを調整します。
同じ透かし強度に到達するために、それらの生成と検出のパフォーマンスを共同で評価します。
(2) タスクの選択では、入力と出力の長さを多様化し、$9$ のタスクをカバーする 5 つのカテゴリの分類を形成します。
(3) 評価指標には、透かし埋め込み後の指示追従能力の低下を自動評価する GPT4-Judge を採用しています。
私たちは、$2$ ウォーターマークの強度の下で $2$ LLM 上の $4$ オープンソース ウォーターマークを評価し、生成品質を維持するための現在の方法に共通する問題を観察します。
コードとデータは https://github.com/THU-KEG/WaterBench で入手できます。

要約(オリジナル)

To mitigate the potential misuse of large language models (LLMs), recent research has developed watermarking algorithms, which restrict the generation process to leave an invisible trace for watermark detection. Due to the two-stage nature of the task, most studies evaluate the generation and detection separately, thereby presenting a challenge in unbiased, thorough, and applicable evaluations. In this paper, we introduce WaterBench, the first comprehensive benchmark for LLM watermarks, in which we design three crucial factors: (1) For benchmarking procedure, to ensure an apples-to-apples comparison, we first adjust each watermarking method’s hyper-parameter to reach the same watermarking strength, then jointly evaluate their generation and detection performance. (2) For task selection, we diversify the input and output length to form a five-category taxonomy, covering $9$ tasks. (3) For evaluation metric, we adopt the GPT4-Judge for automatically evaluating the decline of instruction-following abilities after watermarking. We evaluate $4$ open-source watermarks on $2$ LLMs under $2$ watermarking strengths and observe the common struggles for current methods on maintaining the generation quality. The code and data are available at https://github.com/THU-KEG/WaterBench.

arxiv情報

著者 Shangqing Tu,Yuliang Sun,Yushi Bai,Jifan Yu,Lei Hou,Juanzi Li
発行日 2024-07-01 03:17:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク