A Private Watermark for Large Language Models

要約

最近、大規模言語モデル (LLM) 用のテキスト透かしアルゴリズムにより、フェイク ニュースや著作権問題など、LLM によって生成されたテキストの潜在的な害が軽減されています。
ただし、現在のテキスト アルゴリズムの透かし検出には生成プロセスからのキーが必要なため、侵害や偽造の影響を受けやすくなっています。
この研究では、最初のプライベート透かしアルゴリズムを提案します。このアルゴリズムは、両方の段階で同じキーを使用するのではなく、透かしの生成と検出にそれぞれ 2 つの異なるニューラル ネットワークを使用することで、現在のテキスト透かしアルゴリズムを拡張します。
一方、透かし生成ネットワークと検出ネットワークのパラメータの一部は共有されるため、検出ネットワークは非常に効率的に高精度を達成できます。
実験の結果、両方のネットワークのパラメータ サイズが小さいため、私たちのアルゴリズムは生成と検出速度への影響を最小限に抑えながら、高い検出精度を保証することがわかりました。
さらに、その後の分析では、検出ネットワークから透かし生成ルールを元に戻すことの困難性を示しています。

要約(オリジナル)

Recently, text watermarking algorithms for large language models (LLMs) have been mitigating the potential harms of text generated by the LLMs, including fake news and copyright issues. However, the watermark detection of current text algorithms requires the key from the generation process, making them susceptible to breaches and counterfeiting. In this work, we propose the first private watermarking algorithm, which extends the current text watermarking algorithms by using two different neural networks respectively for watermark generation and detection, rather than using the same key at both stages. Meanwhile, part of the parameters of the watermark generation and detection networks are shared, which makes the detection network achieve a high accuracy very efficiently. Experiments show that our algorithm ensures high detection accuracy with minimal impact on generation and detection speed, due to the small parameter size of both networks. Additionally, our subsequent analysis demonstrates the difficulty of reverting the watermark generation rules from the detection network.

arxiv情報

著者 Aiwei Liu,Leyi Pan,Xuming Hu,Shu’ang Li,Lijie Wen,Irwin King,Philip S. Yu
発行日 2023-08-02 09:11:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 パーマリンク