I Know You Did Not Write That! A Sampling Based Watermarking Method for Identifying Machine Generated Text

要約

機械生成されたテキストを検出する信頼できる方法が存在すれば、大量の誤情報や盗作などの大規模言語モデルの潜在的な害を部分的に軽減できます。
この論文では、機械生成されたテキストを検出するための新しい透かし手法を提案します。
私たちの方法では、生成されたテキスト内に独自のパターンを埋め込み、コンテンツが人間の読者にとって一貫性と自然さを保ちながら、アルゴリズムで識別できる個別のマーカーを確実に保持します。
具体的には、検出フェーズ中にトークンの選択を追跡できるように、トークン サンプリング プロセスに介入します。
透かし入れがテキストの品質にどのような影響を与えるかを示し、堅牢性と検出可能性の観点から、提案した方法と最先端の透かし入れ方法を比較します。
広範な実験を通じて、透かし入りのテキストと透かしなしのテキストを区別する際の透かし入れスキームの有効性を実証し、テキストの品質を維持しながら高い検出率を達成しました。

要約(オリジナル)

Potential harms of Large Language Models such as mass misinformation and plagiarism can be partially mitigated if there exists a reliable way to detect machine generated text. In this paper, we propose a new watermarking method to detect machine-generated texts. Our method embeds a unique pattern within the generated text, ensuring that while the content remains coherent and natural to human readers, it carries distinct markers that can be identified algorithmically. Specifically, we intervene with the token sampling process in a way which enables us to trace back our token choices during the detection phase. We show how watermarking affects textual quality and compare our proposed method with a state-of-the-art watermarking method in terms of robustness and detectability. Through extensive experiments, we demonstrate the effectiveness of our watermarking scheme in distinguishing between watermarked and non-watermarked text, achieving high detection rates while maintaining textual quality.

arxiv情報

著者 Kaan Efe Keleş,Ömer Kaan Gürbüz,Mucahid Kutlu
発行日 2023-12-11 14:21:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク