Can Watermarks Survive Translation? On the Cross-lingual Consistency of Text Watermark for Large Language Models

要約

テキスト透かし技術は、大規模言語モデル (LLM) によって生成されたコンテンツをタグ付けして識別し、悪用を防ぐことを目的としています。
この研究では、テキスト透かしの「言語間一貫性」の概念を導入します。これは、テキスト透かしが他の言語に翻訳された後もその有効性を維持する能力を評価します。
2 つの LLM と 3 つの電子透かし手法による予備的な実証結果から、現在のテキスト電子透かしテクノロジは、テキストをさまざまな言語に翻訳する場合に一貫性が欠けていることが明らかになりました。
この観察に基づいて、最初にピボット言語で LLM からの応答を取得し、その後ターゲット言語に翻訳することによって透かしをバイパスする、言語横断的な透かし除去攻撃 (CWRA) を提案します。
CWRA は、パフォーマンスを損なうことなく、曲線下面積 (AUC) を 0.95 から 0.67 に減らすことで、ウォーターマークを効果的に除去できます。
さらに、テキスト透かしの言語間の一貫性に寄与する 2 つの重要な要素を分析し、CWRA の下で AUC を 0.67 から 0.88 に増加させる防御方法を提案します。

要約(オリジナル)

Text watermarking technology aims to tag and identify content produced by large language models (LLMs) to prevent misuse. In this study, we introduce the concept of ”cross-lingual consistency” in text watermarking, which assesses the ability of text watermarks to maintain their effectiveness after being translated into other languages. Preliminary empirical results from two LLMs and three watermarking methods reveal that current text watermarking technologies lack consistency when texts are translated into various languages. Based on this observation, we propose a Cross-lingual Watermark Removal Attack (CWRA) to bypass watermarking by first obtaining a response from an LLM in a pivot language, which is then translated into the target language. CWRA can effectively remove watermarks by reducing the Area Under the Curve (AUC) from 0.95 to 0.67 without performance loss. Furthermore, we analyze two key factors that contribute to the cross-lingual consistency in text watermarking and propose a defense method that increases the AUC from 0.67 to 0.88 under CWRA.

arxiv情報

著者 Zhiwei He,Binglin Zhou,Hongkun Hao,Aiwei Liu,Xing Wang,Zhaopeng Tu,Zhuosheng Zhang,Rui Wang
発行日 2024-02-21 18:48:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク