要約
透かしは、人間が作成したテキストとAIに生成されたテキストを区別するための重要な方法として浮上しています。
このホワイトペーパーでは、透かしスキームと検出プロセスの両方を共同で最適化する大規模な言語モデル(LLMS)を透かして透かして紹介するための新しい理論的枠組みを紹介します。
私たちのアプローチは、最悪の型タイプIエラーとテキストの歪みを制御しながら、検出パフォーマンスを最大化することに焦点を当てています。
\ emphing {普遍的に最小タイプIIエラー}を特徴づけ、透かしの検出可能性とテキストの歪みの間の基本的なトレードオフを示しています。
重要なことに、最適な透かしスキームがLLM生成分布に適応していることを特定します。
理論的な洞察に基づいて、Gumbel-Maxのトリックと一緒に代理モデルを利用して、効率的でモデルに依存しない、配布適応透過アルゴリズムを提案します。
LLAMA2-13BおよびMISTRAL-8 $ \ Times 70億ドルのモデルで行われた実験は、アプローチの有効性を確認します。
さらに、私たちのフレームワークに堅牢性を組み込むことを検討し、敵対的な攻撃により効果的に耐える将来の透かしシステムへの道を開いています。
要約(オリジナル)
Watermarking has emerged as a crucial method to distinguish AI-generated text from human-created text. In this paper, we present a novel theoretical framework for watermarking Large Language Models (LLMs) that jointly optimizes both the watermarking scheme and the detection process. Our approach focuses on maximizing detection performance while maintaining control over the worst-case Type-I error and text distortion. We characterize \emph{the universally minimum Type-II error}, showing a fundamental trade-off between watermark detectability and text distortion. Importantly, we identify that the optimal watermarking schemes are adaptive to the LLM generative distribution. Building on our theoretical insights, we propose an efficient, model-agnostic, distribution-adaptive watermarking algorithm, utilizing a surrogate model alongside the Gumbel-max trick. Experiments conducted on Llama2-13B and Mistral-8$\times$7B models confirm the effectiveness of our approach. Additionally, we examine incorporating robustness into our framework, paving a way to future watermarking systems that withstand adversarial attacks more effectively.
arxiv情報
著者 | Haiyun He,Yepeng Liu,Ziqiao Wang,Yongyi Mao,Yuheng Bu |
発行日 | 2025-02-19 18:18:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google