An Entropy-based Text Watermarking Detection Method

要約

現在、大規模言語モデル (LLM) 用のテキスト透かしアルゴリズムは、LLM によって生成されたテキストに隠れた機能を埋め込んで、その後の検出を容易にすることができるため、LLM の悪用の問題が軽減されます。
現在のテキスト透かしアルゴリズムは、ほとんどの高エントロピー シナリオで良好にパフォーマンスを発揮しますが、低エントロピー シナリオでのパフォーマンスはまだ改善する必要があります。
この研究では、透かし検出プロセスでトークンのエントロピーの影響を十分に考慮する必要があること、つまり、すべてのトークンの重みを 1 に設定するのではなく、透かし検出中に各トークンの重みをそのエントロピーに応じて調整する必要があることを提案しました。
前のメソッドと同じ値。
具体的には、透かしの程度をよりよく反映するために、透かし検出中に高エントロピーのトークンに高い重みを与えるエントロピーベースの透かし検出 (EWD) を提案しました。
さらに、提案された検出プロセスはトレーニング不要で完全に自動化されています。
%実際の検出では、元の LLM を使用せずに、プロキシ LLM を使用して各トークンのエントロピーを計算します。
実験では、私たちの方法が低エントロピーのシナリオでより優れた検出パフォーマンスを達成できること、また私たちの方法が一般的であり、異なるエントロピー分布を持つテキストに適用できることがわかりました。
私たちのコードとデータはオンラインで入手できるようになります。

要約(オリジナル)

Currently, text watermarking algorithms for large language models (LLMs) can embed hidden features to texts generated by LLMs to facilitate subsequent detection, thus alleviating the problem of misuse of LLMs. Although the current text watermarking algorithms perform well in most high-entropy scenarios, its performance in low-entropy scenarios still needs to be improved. In this work, we proposed that the influence of token entropy should be fully considered in the watermark detection process, that is, the weight of each token should be adjusted according to its entropy during watermark detection, rather than setting the weight of all tokens to the same value as in previous methods. Specifically, we proposed an Entropy-based Watermark Detection (EWD) that gives higher-entropy tokens higher weights during watermark detection, so as to better reflect the degree of watermarking. Furthermore, the proposed detection process is training-free and fully automated. %In actual detection, we use a proxy-LLM to calculate the entropy of each token, without the need to use the original LLM. In the experiment, we found that our method can achieve better detection performance in low-entropy scenarios, and our method is also general and can be applied to texts with different entropy distributions. Our code and data will be available online.

arxiv情報

著者 Yijian Lu,Aiwei Liu,Dianzhi Yu,Jingjing Li,Irwin King
発行日 2024-03-20 10:40:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク