Topic-Based Watermarks for LLM-Generated Text

要約

大規模言語モデル (LLM) によって生成されたテキストと人間が生成したテキストの区別がつかないことは、重大な課題を引き起こします。
透かしアルゴリズムは、LLM で生成された出力内に検出可能な署名を埋め込むことによる潜在的なソリューションです。
しかし、現在の透かし入れスキームは、テキストの置換や改ざんなどのさまざまな攻撃に対する堅牢性に欠けており、その信頼性が損なわれています。
この論文では、LLM の透かしの堅牢性を強化するように設計された、LLM 用の新しいトピックベースの透かしアルゴリズムを提案します。
私たちのアプローチは、透かし入りテキストの生成プロセスにおいて、入力プロンプトまたは透かし入りでない LLM の出力から抽出されたトピックを活用します。
特定されたトピックのトークン リストを動的に利用し、それに応じてトークン サンプリングの重みを調整します。
これらのトピック固有のトークン バイアスを使用することで、生成されたテキストにトピックに応じた透かしを埋め込みます。
トピックベースの透かしアルゴリズムの理論的枠組みを概説し、さまざまなシナリオにおけるその潜在的な利点について説明します。
さらに、個別の変更、言い換え、トークン化など、透かしアルゴリズムに対する包括的な攻撃を調査します。
私たちが提案する透かし入れスキームは、透かし入りのさまざまなテキスト トピックを 99.99% の信頼度で分類し、Z スコアの堅牢性と潜在的な攻撃者によるテキスト劣化のモデル化の実現可能性の点で既存のアルゴリズムよりも優れていることを実証します。
LLM によって生成されたテキストに透かしを入れる。

要約(オリジナル)

The indistinguishability of text generated by large language models (LLMs) from human-generated text poses significant challenges. Watermarking algorithms are potential solutions by embedding detectable signatures within LLM-generated outputs. However, current watermarking schemes lack robustness to a range of attacks such as text substitution or manipulation, undermining their reliability. This paper proposes a novel topic-based watermarking algorithm for LLMs, designed to enhance the robustness of watermarking in LLMs. Our approach leverages the topics extracted from input prompts or outputs of non-watermarked LLMs in the generation process of watermarked text. We dynamically utilize token lists on identified topics and adjust token sampling weights accordingly. By using these topic-specific token biases, we embed a topic-sensitive watermarking into the generated text. We outline the theoretical framework of our topic-based watermarking algorithm and discuss its potential advantages in various scenarios. Additionally, we explore a comprehensive range of attacks against watermarking algorithms, including discrete alterations, paraphrasing, and tokenizations. We demonstrate that our proposed watermarking scheme classifies various watermarked text topics with 99.99% confidence and outperforms existing algorithms in terms of z-score robustness and the feasibility of modeling text degradation by potential attackers, while considering the trade-offs between the benefits and losses of watermarking LLM-generated text.

arxiv情報

著者 Alexander Nemecek,Yuzhou Jiang,Erman Ayday
発行日 2024-08-19 17:16:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク