要約
テキストの透かしは、機械生成されたテキストを検出するための重要な技術として浮上しました。
ただし、既存の方法は一般に、デコード中に任意の語彙分割を使用するため、応答生成中に適切な単語が欠如し、言語モデルの表現力が損なわれ、テキスト応答の品質が大幅に低下します。
これらの問題に対処するために、私たちは新しいアプローチである Watermarking with Mutual Exclusion (WatME) を導入します。
具体的には、WatME は、固有の語彙冗長性に関する言語的な事前知識を活用することで、言語モデルのデコード プロセス中に利用可能な語彙の使用を動的に最適化できます。
この冗長性を管理するために相互排他的なルールを採用し、適切な単語が利用できない状況を回避し、大規模言語モデル (LLM) の表現力を維持します。
我々は、WatME が透かしの検出可能性を維持しながら、LLM のテキスト生成能力を実質的に保存することを実証する理論的分析と経験的証拠を提示します。
具体的には、知識の想起や論理的推論など、LLM の創発的な能力に対する透かしの影響を調査します。
私たちの包括的な実験により、WatME が LLM のこれらの重要な機能を維持する点で既存の方法よりも常に優れていることが確認されました。
私たちのコードは、将来の研究を容易にするために公開されます。
要約(オリジナル)
Text watermarking has emerged as an important technique for detecting machine-generated text. However, existing methods generally use arbitrary vocabulary partitioning during decoding, which results in the absence of appropriate words during the response generation and disrupts the language model’s expressiveness, thus severely degrading the quality of text response. To address these issues, we introduce a novel approach, Watermarking with Mutual Exclusion (WatME). Specifically, by leveraging linguistic prior knowledge of inherent lexical redundancy, WatME can dynamically optimize the use of available vocabulary during the decoding process of language models. It employs a mutually exclusive rule to manage this redundancy, avoiding situations where appropriate words are unavailable and maintaining the expressive power of large language models (LLMs). We present theoretical analysis and empirical evidence demonstrating that WatME substantially preserves the text generation ability of LLMs while maintaining watermark detectability. Specifically, we investigate watermarking’s impact on the emergent abilities of LLMs, including knowledge recall and logical reasoning. Our comprehensive experiments confirm that WatME consistently outperforms existing methods in retaining these crucial capabilities of LLMs. Our code will be released to facilitate future research.
arxiv情報
著者 | Liang Chen,Yatao Bian,Yang Deng,Deng Cai,Shuaiyi Li,Peilin Zhao,Kam-fai Wong |
発行日 | 2024-02-16 14:58:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google