Advancing Beyond Identification: Multi-bit Watermark for Large Language Models

要約

私たちは、機械生成されたテキストの識別を超えて、大規模な言語モデルの誤用に取り組む方法を提案します。
既存の手法は検出に重点を置いていますが、一部の悪意のある悪用には、対抗するために敵対ユーザーの追跡が必要です。
これに対処するために、言語モデルの生成中に追跡可能なマルチビット情報を埋め込む、位置割り当てによるマルチビット ウォーターマークを提案します。
ゼロビット透かしの利点を活用することで、私たちの方法は、モデルにアクセスせずに透かしの堅牢な抽出、微調整なしで長いメッセージ ($\geq$ 32 ビット) の埋め込みと抽出を可能にし、ゼロビットを許可しながらテキストの品質を維持することができます。
全てを同時に検出します。
さらに、私たちのウォーターマークは、人間のテキストのインターリーブや言い換えなどの強力な攻撃に対して比較的堅牢です。

要約(オリジナル)

We propose a method to tackle misuses of large language models beyond the identification of machine-generated text. While existing methods focus on detection, some malicious misuses demand tracing the adversary user for counteracting them. To address this, we propose Multi-bit Watermark via Position Allocation, embedding traceable multi-bit information during language model generation. Leveraging the benefits of zero-bit watermarking, our method enables robust extraction of the watermark without any model access, embedding and extraction of long messages ($\geq$ 32-bit) without finetuning, and maintaining text quality, while allowing zero-bit detection all at the same time. Moreover, our watermark is relatively robust under strong attacks like interleaving human texts and paraphrasing.

arxiv情報

著者 KiYoon Yoo,Wonhyuk Ahn,Nojun Kwak
発行日 2023-09-27 04:08:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク