WaterPark: A Robustness Assessment of Language Model Watermarking

要約

偽情報、自動フィッシング、学術不正行為などの大規模言語モデル (LLM) の悪用を軽減するために、LLM によって生成されたテキストを識別する機能が急務となっています。
透かしは、LLM の生成プロセスに統計信号を埋め込み、その後、LLM が特定のテキストを生成するかどうかを検証する、有望な解決策の 1 つとして浮上します。
さまざまな透かし入れ方法 (「ウォーターマーカー」) が提案されています。
しかし、統一された評価プラットフォームが存在しないため、多くの重要な問題が未調査のままです。 i) さまざまなウォーターマーカーの長所と限界、特に攻撃の堅牢性は何ですか?
ii) さまざまな設計の選択は堅牢性にどのような影響を与えますか?
iii) 敵対的な環境でウォーターマーカーを最適に運用するにはどうすればよいですか?
このギャップを埋めるために、既存の LLM ウォーターマーカーとウォーターマーク除去攻撃を体系化し、その設計空間をマッピングします。
次に、10 個の最先端のウォーターマーカーと 12 個の代表的な攻撃を統合する統合プラットフォームである WaterPark を開発します。
さらに重要なのは、WaterPark を活用して、既存のウォーターマーカーの包括的な評価を実施し、さまざまな設計上の選択が攻撃の堅牢性に及ぼす影響を明らかにすることです。
たとえば、ますます集中的な攻撃に対するウォーターマーカーの回復力は、そのコンテキスト依存性にかかっています。
さらに、敵対的な環境でウォーターマーカーを運用するためのベスト プラクティスを探ります。
たとえば、汎用の検出器をウォーターマーク固有の検出器と併用すると、脆弱なウォーターマークのセキュリティが向上します。
私たちは、この研究が現在の LLM 透かし技術に光を当てるとともに、WaterPark が将来の研究を促進するための貴重なテストベッドとして機能すると信じています。

要約(オリジナル)

To mitigate the misuse of large language models (LLMs), such as disinformation, automated phishing, and academic cheating, there is a pressing need for the capability of identifying LLM-generated texts. Watermarking emerges as one promising solution: it plants statistical signals into LLMs’ generative processes and subsequently verifies whether LLMs produce given texts. Various watermarking methods (“watermarkers”) have been proposed; yet, due to the lack of unified evaluation platforms, many critical questions remain under-explored: i) What are the strengths/limitations of various watermarkers, especially their attack robustness? ii) How do various design choices impact their robustness? iii) How to optimally operate watermarkers in adversarial environments? To fill this gap, we systematize existing LLM watermarkers and watermark removal attacks, mapping out their design spaces. We then develop WaterPark, a unified platform that integrates 10 state-of-the-art watermarkers and 12 representative attacks. More importantly, leveraging WaterPark, we conduct a comprehensive assessment of existing watermarkers, unveiling the impact of various design choices on their attack robustness. For instance, a watermarker’s resilience to increasingly intensive attacks hinges on its context dependency. We further explore the best practices to operate watermarkers in adversarial environments. For instance, using a generic detector alongside a watermark-specific detector improves the security of vulnerable watermarkers. We believe our study sheds light on current LLM watermarking techniques while WaterPark serves as a valuable testbed to facilitate future research.

arxiv情報

著者 Jiacheng Liang,Zian Wang,Lauren Hong,Shouling Ji,Ting Wang
発行日 2024-11-20 16:09:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク