WaterJudge: Quality-Detection Trade-off when Watermarking Large Language Models

要約

LLM などの透かし生成 AI システムは、幅広いタスクにわたって強化された機能によって大きな関心を集めています。
現在のアプローチでは、単語分布におけるコンテキストに依存した小さな変化を使用して透かしを適用および検出できることが実証されていますが、これらの摂動が生成されたテキストの品質に与える影響を分析する研究はほとんど行われていません。
適切な透かし設定を選択するという点では、高い検出可能性と最小限のパフォーマンス低下のバランスをとることが重要です。
したがって、この論文では、柔軟な NLG 評価フレームワークである比較評価を使用して、特定のウォーターマーク設定によって引き起こされる品質劣化を評価する、単純な分析フレームワークを提案します。
私たちのフレームワークがウォーターマーク設定の品質と検出のトレードオフを簡単に視覚化し、バランスの取れたパフォーマンスを提供する LLM ウォーターマーク動作点を見つける簡単なソリューションを可能にすることを実証します。
このアプローチは 2 つの異なる要約システムと翻訳システムに適用され、タスクのクロスモデル分析とクロスタスク分析が可能になります。

要約(オリジナル)

Watermarking generative-AI systems, such as LLMs, has gained considerable interest, driven by their enhanced capabilities across a wide range of tasks. Although current approaches have demonstrated that small, context-dependent shifts in the word distributions can be used to apply and detect watermarks, there has been little work in analyzing the impact that these perturbations have on the quality of generated texts. Balancing high detectability with minimal performance degradation is crucial in terms of selecting the appropriate watermarking setting; therefore this paper proposes a simple analysis framework where comparative assessment, a flexible NLG evaluation framework, is used to assess the quality degradation caused by a particular watermark setting. We demonstrate that our framework provides easy visualization of the quality-detection trade-off of watermark settings, enabling a simple solution to find an LLM watermark operating point that provides a well-balanced performance. This approach is applied to two different summarization systems and a translation system, enabling cross-model analysis for a task, and cross-task analysis.

arxiv情報

著者 Piotr Molenda,Adian Liusie,Mark J. F. Gales
発行日 2024-03-28 16:28:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク