A Semantic Invariant Robust Watermark for Large Language Models

要約

大規模言語モデル (LLM) の透かしアルゴリズムは、LLM によって生成されたテキストの検出において非常に高い精度を達成しました。
このようなアルゴリズムでは、通常、各生成ステップで LLM のロジットに追加のウォーターマーク ロジットを追加する必要があります。
ただし、従来のアルゴリズムは、攻撃の堅牢性とセキュリティの堅牢性の間のトレードオフに直面しています。
これは、トークンのウォーターマーク ロジットが、先行するトークンの特定の数によって決定されるためです。
数値が小さいとセキュリティの堅牢性が低くなり、数値が大きいと攻撃の堅牢性が不十分になります。
この研究では、攻撃の堅牢性とセキュリティの堅牢性の両方を提供する、LLM の意味論的に不変の透かし埋め込み方法を提案します。
私たちの作業における透かしロジットは、先行するすべてのトークンのセマンティクスによって決定されます。
具体的には、別の埋め込み LLM を利用して、先行するすべてのトークンの意味埋め込みを生成し、これらの意味埋め込みは、トレーニングされた透かしモデルを通じて透かしロジットに変換されます。
その後の分析と実験により、意味的に不変な設定、つまり同義語置換やテキスト言い換え設定における私たちの方法の攻撃の堅牢性が実証されました。
最後に、ウォーターマークが十分なセキュリティ堅牢性を備えていることも示します。
コードとデータは https://github.com/THU-BPM/Robust_Watermark で入手できます。

要約(オリジナル)

Watermark algorithms for large language models (LLMs) have achieved extremely high accuracy in detecting text generated by LLMs. Such algorithms typically involve adding extra watermark logits to the LLM’s logits at each generation step. However, prior algorithms face a trade-off between attack robustness and security robustness. This is because the watermark logits for a token are determined by a certain number of preceding tokens; a small number leads to low security robustness, while a large number results in insufficient attack robustness. In this work, we propose a semantic invariant watermarking method for LLMs that provides both attack robustness and security robustness. The watermark logits in our work are determined by the semantics of all preceding tokens. Specifically, we utilize another embedding LLM to generate semantic embeddings for all preceding tokens, and then these semantic embeddings are transformed into the watermark logits through our trained watermark model. Subsequent analyses and experiments demonstrated the attack robustness of our method in semantically invariant settings: synonym substitution and text paraphrasing settings. Finally, we also show that our watermark possesses adequate security robustness. Our code and data are available at https://github.com/THU-BPM/Robust_Watermark.

arxiv情報

著者 Aiwei Liu,Leyi Pan,Xuming Hu,Shiao Meng,Lijie Wen
発行日 2024-02-29 14:15:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.CR, I.2.7 パーマリンク