Can Watermarks Survive Translation? On the Cross-lingual Consistency of Text Watermark for Large Language Models

要約

テキスト透かし技術は、大規模言語モデル (LLM) によって生成されたコンテンツをタグ付けして識別し、悪用を防ぐことを目的としています。
この研究では、テキスト透かしの言語間一貫性の概念を導入します。この概念は、テキスト透かしが他の言語に翻訳された後もその有効性を維持できるかどうかを評価します。
2 つの LLM と 3 つの電子透かし手法による予備的な実証結果から、現在のテキスト電子透かしテクノロジは、テキストをさまざまな言語に翻訳する場合に一貫性が欠けていることが明らかになりました。
この観察に基づいて、最初にピボット言語で LLM からの応答を取得し、その後ターゲット言語に翻訳することによって透かしをバイパスする、クロスリンガル ウォーターマーク除去攻撃 (CWRA) を提案します。
CWRA はウォーターマークを効果的に削除し、パフォーマンスを損なうことなく AUC をランダムな推測レベルまで下げることができます。
さらに、テキスト透かしの言語間の一貫性に寄与する 2 つの重要な要素を分析し、CWRA に対する防御方法として X-SIR を提案します。
コード: https://github.com/zwhe99/X-SIR。

要約(オリジナル)

Text watermarking technology aims to tag and identify content produced by large language models (LLMs) to prevent misuse. In this study, we introduce the concept of cross-lingual consistency in text watermarking, which assesses the ability of text watermarks to maintain their effectiveness after being translated into other languages. Preliminary empirical results from two LLMs and three watermarking methods reveal that current text watermarking technologies lack consistency when texts are translated into various languages. Based on this observation, we propose a Cross-lingual Watermark Removal Attack (CWRA) to bypass watermarking by first obtaining a response from an LLM in a pivot language, which is then translated into the target language. CWRA can effectively remove watermarks, decreasing the AUCs to a random-guessing level without performance loss. Furthermore, we analyze two key factors that contribute to the cross-lingual consistency in text watermarking and propose X-SIR as a defense method against CWRA. Code: https://github.com/zwhe99/X-SIR.

arxiv情報

著者 Zhiwei He,Binglin Zhou,Hongkun Hao,Aiwei Liu,Xing Wang,Zhaopeng Tu,Zhuosheng Zhang,Rui Wang
発行日 2024-06-04 14:24:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク