An Unforgeable Publicly Verifiable Watermark for Large Language Models

要約

最近、大規模言語モデル (LLM) 用のテキスト透かしアルゴリズムが、フェイク ニュースや著作権問題など、LLM によって生成されたテキストの潜在的な害を軽減するために提案されています。
ただし、現在の透かし検出アルゴリズムでは、透かし生成プロセスで使用される秘密キーが必要なため、公開検出中にセキュリティ侵害や偽造の影響を受けやすくなっています。
この制限に対処するために、透かしの生成と検出に両方の段階で同じキーを使用するのではなく、2 つの異なるニューラル ネットワークを使用する、偽造不可能で公的に検証可能な透かしアルゴリズムを提案します。
一方、トークン埋め込みパラメータは生成ネットワークと検出ネットワーク間で共有されるため、検出ネットワークは非常に効率的に高い精度を達成できます。
実験では、最小限のパラメータを使用したニューラル ネットワークを通じて、私たちのアルゴリズムが高い検出精度と計算効率を達成していることが実証されています。
その後の分析により、検出ネットワークからの透かしの偽造に伴う高度な複雑さが確認されます。
コードとデータは \href{https://github.com/THU-BPM/unforgeable_watermark}{https://github.com/THU-BPM/unforgeable\_watermark} で入手できます。

要約(オリジナル)

Recently, text watermarking algorithms for large language models (LLMs) have been proposed to mitigate the potential harms of text generated by LLMs, including fake news and copyright issues. However, current watermark detection algorithms require the secret key used in the watermark generation process, making them susceptible to security breaches and counterfeiting during public detection. To address this limitation, we propose an unforgeable publicly verifiable watermark algorithm that uses two different neural networks for watermark generation and detection, instead of using the same key at both stages. Meanwhile, the token embedding parameters are shared between the generation and detection networks, which makes the detection network achieve a high accuracy very efficiently. Experiments demonstrate that our algorithm attains high detection accuracy and computational efficiency through neural networks with a minimized number of parameters. Subsequent analysis confirms the high complexity involved in forging the watermark from the detection network. Our code and data are available at \href{https://github.com/THU-BPM/unforgeable_watermark}{https://github.com/THU-BPM/unforgeable\_watermark}.

arxiv情報

著者 Aiwei Liu,Leyi Pan,Xuming Hu,Shu’ang Li,Lijie Wen,Irwin King,Philip S. Yu
発行日 2024-02-29 14:01:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, I.2.7 パーマリンク