SemStamp: A Semantic Watermark with Paraphrastic Robustness for Text Generation

要約

既存の透かしアルゴリズムは、トークンレベルの設計のため、言い換え攻撃に対して脆弱です。
この問題に対処するために、我々は、文の意味空間を分割する局所性依存ハッシュ (LSH) に基づく堅牢な文レベルの意味論的透かしアルゴリズムである SemStamp を提案します。
このアルゴリズムは、LLM によって生成された候補文をエンコードして LSH ハッシュし、サンプリングされた文が意味埋め込み空間内の透かし入りパーティションに収まるまで文レベルの拒否サンプリングを実行します。
マージンベースの制約は、堅牢性を高めるために使用されます。
私たちのアルゴリズムの利点を示すために、元の文とのバイグラムの重複が最も少ない言い換えを使用する「バイグラム」言い換え攻撃を提案します。
この攻撃は、既存のトークンレベルの透かし手法に対して有効であることが示されています。
実験結果は、私たちの新しい意味論的透かしアルゴリズムが、一般的な言い換え攻撃とバイグラム言い換え攻撃の両方に対して以前の最先端の方法よりも堅牢であるだけでなく、生成の品質を維持する点でも優れていることを示しています。

要約(オリジナル)

Existing watermarking algorithms are vulnerable to paraphrase attacks because of their token-level design. To address this issue, we propose SemStamp, a robust sentence-level semantic watermarking algorithm based on locality-sensitive hashing (LSH), which partitions the semantic space of sentences. The algorithm encodes and LSH-hashes a candidate sentence generated by an LLM, and conducts sentence-level rejection sampling until the sampled sentence falls in watermarked partitions in the semantic embedding space. A margin-based constraint is used to enhance its robustness. To show the advantages of our algorithm, we propose a ‘bigram’ paraphrase attack using the paraphrase that has the fewest bigram overlaps with the original sentence. This attack is shown to be effective against the existing token-level watermarking method. Experimental results show that our novel semantic watermark algorithm is not only more robust than the previous state-of-the-art method on both common and bigram paraphrase attacks, but also is better at preserving the quality of generation.

arxiv情報

著者 Abe Bohan Hou,Jingyu Zhang,Tianxing He,Yichen Wang,Yung-Sung Chuang,Hongwei Wang,Lingfeng Shen,Benjamin Van Durme,Daniel Khashabi,Yulia Tsvetkov
発行日 2023-10-06 03:33:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク