Stylometric Watermarks for Large Language Models

要約

大規模言語モデル (LLM) の急速な進歩により、人間が書いたテキストと機械が書いたテキストを区別することがますます困難になっています。
これに対処して、生成中にトークンの確率を戦略的に変更する、ウォーターマークを生成するための新しい方法を提案します。
これまでの研究とは異なり、この手法はスタイロメトリーなどの言語特徴を独自に採用しています。
具体的には、LLM にアクロスティカと感覚運動の規範を導入します。
さらに、これらの特徴はキーによってパラメータ化され、文ごとに更新されます。
このキーを計算するには、回復力を強化するセマンティック ゼロ ショット分類を使用します。
私たちの評価では、3 文以上の場合、私たちの方法は偽陽性率と偽陰性率 0.02 を達成していることがわかりました。
巡回翻訳攻撃の場合、7 文以上で同様の結果が観察されます。
この研究は、責任を果たし、社会的危害を防止する独自の LLM にとって特に興味深いものです。

要約(オリジナル)

The rapid advancement of large language models (LLMs) has made it increasingly difficult to distinguish between text written by humans and machines. Addressing this, we propose a novel method for generating watermarks that strategically alters token probabilities during generation. Unlike previous works, this method uniquely employs linguistic features such as stylometry. Concretely, we introduce acrostica and sensorimotor norms to LLMs. Further, these features are parameterized by a key, which is updated every sentence. To compute this key, we use semantic zero shot classification, which enhances resilience. In our evaluation, we find that for three or more sentences, our method achieves a false positive and false negative rate of 0.02. For the case of a cyclic translation attack, we observe similar results for seven or more sentences. This research is of particular of interest for proprietary LLMs to facilitate accountability and prevent societal harm.

arxiv情報

著者 Georg Niess,Roman Kern
発行日 2024-05-14 07:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク