Advancing Beyond Identification: Multi-bit Watermark for Language Models

要約

この研究は、機械生成テキストの識別を超えて、大規模な言語モデルの誤用に積極的に取り組むことを目的としています。
既存の手法は検出に重点を置いていますが、一部の悪意のある悪用には、対抗するために敵対ユーザーの追跡が必要です。
これに対処するために、言語モデルの生成中に追跡可能なマルチビット情報を埋め込む「カラーリストによるマルチビット透かし」(COLOR) を提案します。
ゼロビット透かしの利点 (Kirchenbauer et al., 2023a) を活用することで、COLOR はモデルアクセスなしの抽出、オンザフライ埋め込みを可能にし、テキスト品質を維持しながら同時にゼロビット検出を可能にします。
予備実験では、中程度の長さのテキスト ($\sim$500 トークン) で 91.9% の精度で 32 ビット メッセージの埋め込みに成功したことが実証されています。
この取り組みは、言語モデルの誤用に効果的に対抗するための戦略を前進させます。

要約(オリジナル)

This study aims to proactively tackle misuse of large language models beyond identification of machine-generated text. While existing methods focus on detection, some malicious misuses demand tracing the adversary user for counteracting them. To address this, we propose ‘Multi-bit Watermark through Color-listing’ (COLOR), embedding traceable multi-bit information during language model generation. Leveraging the benefits of zero-bit watermarking (Kirchenbauer et al., 2023a), COLOR enables extraction without model access, on-the-fly embedding, and maintains text quality, while allowing zero-bit detection all at the same time. Preliminary experiments demonstrates successful embedding of 32-bit messages with 91.9% accuracy in moderate-length texts ($\sim$500 tokens). This work advances strategies to counter language model misuse effectively.

arxiv情報

著者 KiYoon Yoo,Wonhyuk Ahn,Nojun Kwak
発行日 2023-08-01 01:27:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク