Ensemble Watermarks for Large Language Models


大規模言語モデル (LLM) の急速な進歩により、人間が書いたテキストと機械が書いたテキストを区別することがますます困難になっています。
LLM にはウォーターマークがすでに存在しますが、多くの場合柔軟性に欠けており、言い換えなどの攻撃に苦労します。
具体的には、アクロスティカ基準と感覚運動基準を確立された赤と緑のウォーターマークと組み合わせて、98% の検出率を達成します。
言い換え攻撃の後でも、パフォーマンスは 95% の検出率と高いままです。
ベースラインとしての赤と緑の特徴だけで、49% の検出率を達成します。
すべての特徴の組み合わせを評価すると、3 つすべてのアンサンブルが、複数の LLM およびウォーターマーク強度設定にわたって一貫して最高の検出率を示していることがわかります。


The rapid advancement of large language models (LLMs) has made it increasingly difficult to distinguish between text written by humans and machines. While watermarks already exist for LLMs, they often lack flexibility, and struggle with attacks such as paraphrasing. To address these issues, we propose a multi-feature method for generating watermarks that combines multiple distinct watermark features into an ensemble watermark. Concretely, we combine acrostica and sensorimotor norms with the established red-green watermark to achieve a 98% detection rate. After a paraphrasing attack the performance remains high with 95% detection rate. The red-green feature alone as baseline achieves a detection rate of 49%. The evaluation of all feature combinations reveals that the ensemble of all three consistently has the highest detection rate across several LLMs and watermark strength settings. Due to the flexibility of combining features in the ensemble, various requirements and trade-offs can be addressed. Additionally, for all ensemble configurations the same detection function can be used without adaptations. This method is particularly of interest to facilitate accountability and prevent societal harm.


著者 Georg Niess,Roman Kern
発行日 2024-11-29 09:18:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク