Topic-based Watermarks for LLM-Generated Text

要約

大規模言語モデル (LLM) の最近の進歩により、人間が生成したテキストと同等の区別できないテキスト出力が可能になりました。
透かしアルゴリズムは、LLM が生成した出力内に検出可能な署名を埋め込むことで、LLM が生成したテキストと人間が生成したテキストを区別する方法を提供する潜在的なツールです。
しかし、現在の透かし入れスキームは、透かし入れアルゴリズムに対する既知の攻撃に対する堅牢性に欠けています。
さらに、LLM が 1 日に何万ものテキスト出力を生成し、検出を機能させるために電子透かしアルゴリズムが生成する各出力を記憶する必要があることを考慮すると、これらは非現実的です。
この研究では、現在の透かし入れスキームの制限に焦点を当て、LLM 用の「トピックベースの透かし入れアルゴリズム」の概念を提案します。
提案されたアルゴリズムは、入力プロンプトの抽出されたトピックまたは透かしの入っていない LLM の出力に基づいて、透かし入りの LLM 出力のトークンを生成する方法を決定します。
以前の研究からインスピレーションを得て、LLM の透かし入り出力を生成する際に、特定のトークンを含めるか除外するかを指定するリストのペア (指定された抽出されたトピックに基づいて生成される) を使用することを提案します。
提案した透かしアルゴリズムを使用して、透かし検出アルゴリズムの実用性を示します。
さらに、LLM の透かしアルゴリズムに対して出現する可能性のある広範囲の攻撃と、利益と損失を考慮して潜在的な攻撃者をモデル化する実現可能性に関する提案された透かしスキームの利点について説明します。

要約(オリジナル)

Recent advancements of large language models (LLMs) have resulted in indistinguishable text outputs comparable to human-generated text. Watermarking algorithms are potential tools that offer a way to differentiate between LLM- and human-generated text by embedding detectable signatures within LLM-generated output. However, current watermarking schemes lack robustness against known attacks against watermarking algorithms. In addition, they are impractical considering an LLM generates tens of thousands of text outputs per day and the watermarking algorithm needs to memorize each output it generates for the detection to work. In this work, focusing on the limitations of current watermarking schemes, we propose the concept of a ‘topic-based watermarking algorithm’ for LLMs. The proposed algorithm determines how to generate tokens for the watermarked LLM output based on extracted topics of an input prompt or the output of a non-watermarked LLM. Inspired from previous work, we propose using a pair of lists (that are generated based on the specified extracted topic(s)) that specify certain tokens to be included or excluded while generating the watermarked output of the LLM. Using the proposed watermarking algorithm, we show the practicality of a watermark detection algorithm. Furthermore, we discuss a wide range of attacks that can emerge against watermarking algorithms for LLMs and the benefit of the proposed watermarking scheme for the feasibility of modeling a potential attacker considering its benefit vs. loss.

arxiv情報

著者 Alexander Nemecek,Yuzhou Jiang,Erman Ayday
発行日 2024-04-02 17:49:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク