Towards Codable Watermarking for Injecting Multi-bit Information to LLM

要約

大規模言語モデル (LLM) が流暢さと現実性を高めたテキストを生成するため、LLM の悪用を防ぐためにテキストの出典を特定する必要性が高まっています。
テキスト透かし技術は、生成されたテキストに隠しパターンを挿入することにより、テキストが LLM によって生成されたものであるかどうかを区別する上で信頼性が高いことが証明されています。
しかし、LLM の既存の透かし手法はエンコード効率が悪く (LLM から生成されたかどうかに関係なく、1 ビットの情報しか含まれていない)、多様な情報エンコードのニーズ (エンコード モデルのバージョン、生成時間など) に柔軟に対応できないと主張します。
、ユーザー ID など)をさまざまな LLM アプリケーション シナリオで使用します。
この研究では、テキスト透かしでよりカスタマイズ可能な情報を伝達できるようにする LLM 用の Codable Text Watermarking (CTWL) のテーマに関する最初の体系的な研究を実施します。
まず第一に、LLM 透かし技術の分類を研究し、CTWL の数学的定式化を行います。
さらに、CTWL に対して、(1) 透かしの成功率、(2) さまざまな破損に対する堅牢性、(3) ペイロード情報の符号化率、(4) 符号化および復号化の効率、(5) 品質への影響といった包括的な評価システムを提供します。
生成されたテキストの。
これらの非パレート改善メトリクスの要件を満たすために、情報をエンコードするために利用可能な語彙と利用できない語彙がほぼ同等の確率を持つことを保証するという動機に基づいて、Balance-Marking という名前の CTWL 手法を考案しました。
既存の研究から拡張されたランダムな語彙分割と比較して、確率バランスのとれた語彙分割は、生成されるテキストの品質を大幅に向上させることができます。
広範な実験結果は、私たちの方法が包括的な評価の下で直接のベースラインよりも優れていることを示しています。

要約(オリジナル)

As large language models (LLMs) generate texts with increasing fluency and realism, there is a growing need to identify the source of texts to prevent the abuse of LLMs. Text watermarking techniques have proven reliable in distinguishing whether a text is generated by LLMs by injecting hidden patterns into the generated texts. However, we argue that existing watermarking methods for LLMs are encoding-inefficient (only contain one bit of information – whether it is generated from an LLM or not) and cannot flexibly meet the diverse information encoding needs (such as encoding model version, generation time, user id, etc.) in different LLMs application scenarios. In this work, we conduct the first systematic study on the topic of Codable Text Watermarking for LLMs (CTWL) that allows text watermarks to carry more customizable information. First of all, we study the taxonomy of LLM watermarking technology and give a mathematical formulation for CTWL. Additionally, we provide a comprehensive evaluation system for CTWL: (1) watermarking success rate, (2) robustness against various corruptions, (3) coding rate of payload information, (4) encoding and decoding efficiency, (5) impacts on the quality of the generated text. To meet the requirements of these non-Pareto-improving metrics, we devise a CTWL method named Balance-Marking, based on the motivation of ensuring that available and unavailable vocabularies for encoding information have approximately equivalent probabilities. Compared to the random vocabulary partitioning extended from the existing work, a probability-balanced vocabulary partition can significantly improve the quality of the generated text. Extensive experimental results have shown that our method outperforms a direct baseline under comprehensive evaluation.

arxiv情報

著者 Lean Wang,Wenkai Yang,Deli Chen,Hao Zhou,Yankai Lin,Fandong Meng,Jie Zhou,Xu Sun
発行日 2023-11-27 08:30:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク