要約
AI が生成したテキストは人間が書いたコンテンツにますます似てきており、機械が生成したテキストを検出する機能が重要になっています。
この課題に対処するために、テキストの一部が特定のモデルからのものであるかどうかを確認するように設計された堅牢で高品質のソリューションである GPTWatermark を紹介します。
私たちのアプローチは既存の透かし戦略を拡張し、編集や言い換え攻撃に対する堅牢性を高めるために固定グループ設計を採用しています。
私たちの透かし入り言語モデルは、生成品質、検出の正確さ、回避攻撃に対するセキュリティに関して証明可能な強力な保証を受けていることを示します。
さまざまな大規模言語モデル (LLM) と多様なデータセットに関する実験結果は、私たちの方法が複雑さにおいて優れた検出精度と同等の生成品質を達成し、LLM の責任ある使用を促進することを実証しています。
要約(オリジナル)
As AI-generated text increasingly resembles human-written content, the ability to detect machine-generated text becomes crucial. To address this challenge, we present GPTWatermark, a robust and high-quality solution designed to ascertain whether a piece of text originates from a specific model. Our approach extends existing watermarking strategies and employs a fixed group design to enhance robustness against editing and paraphrasing attacks. We show that our watermarked language model enjoys strong provable guarantees on generation quality, correctness in detection, and security against evasion attacks. Experimental results on various large language models (LLMs) and diverse datasets demonstrate that our method achieves superior detection accuracy and comparable generation quality in perplexity, thus promoting the responsible use of LLMs.
arxiv情報
著者 | Xuandong Zhao,Prabhanjan Ananth,Lei Li,Yu-Xiang Wang |
発行日 | 2023-06-30 07:24:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google