Ensemble Watermarks for Large Language Models

要約

大規模言語モデル (LLM) の急速な進歩により、人間が書いたテキストと機械が書いたテキストを区別することがますます困難になっています。
LLM にはウォーターマークがすでに存在しますが、多くの場合柔軟性に欠けており、言い換えなどの攻撃に苦労します。
これらの問題に対処するために、我々は、複数の異なる透かし特徴をアンサンブル透かしに結合する、透かしを生成するための多特徴方法を提案する。
具体的には、アクロスティカ基準と感覚運動基準を確立された赤と緑のウォーターマークと組み合わせて、98% の検出率を達成します。
言い換え攻撃の後でも、パフォーマンスは 95% の検出率と高いままです。
ベースラインとしての赤と緑の特徴だけで、49% の検出率を達成します。
すべての特徴の組み合わせを評価すると、3 つすべてのアンサンブルが、複数の LLM およびウォーターマーク強度設定にわたって一貫して最高の検出率を示していることがわかります。
アンサンブル内の機能を柔軟に組み合わせることができるため、さまざまな要件やトレードオフに対処できます。
さらに、すべてのアンサンブル構成に対して、同じ検出機能を適応化せずに使用できます。
この方法は、説明責任を促進し、社会的危害を防ぐために特に興味深いものです。

要約(オリジナル)

The rapid advancement of large language models (LLMs) has made it increasingly difficult to distinguish between text written by humans and machines. While watermarks already exist for LLMs, they often lack flexibility, and struggle with attacks such as paraphrasing. To address these issues, we propose a multi-feature method for generating watermarks that combines multiple distinct watermark features into an ensemble watermark. Concretely, we combine acrostica and sensorimotor norms with the established red-green watermark to achieve a 98% detection rate. After a paraphrasing attack the performance remains high with 95% detection rate. The red-green feature alone as baseline achieves a detection rate of 49%. The evaluation of all feature combinations reveals that the ensemble of all three consistently has the highest detection rate across several LLMs and watermark strength settings. Due to the flexibility of combining features in the ensemble, various requirements and trade-offs can be addressed. Additionally, for all ensemble configurations the same detection function can be used without adaptations. This method is particularly of interest to facilitate accountability and prevent societal harm.

arxiv情報

著者 Georg Niess,Roman Kern
発行日 2024-11-29 09:18:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク