Discovering Clues of Spoofed LM Watermarks

要約

LLM透かしは、LLMで生成されたテキストの所有権を示す有望な方法として注目されている。電子透かしの信頼性に対する脅威の一つはなりすまし攻撃によるもので、権限のない第三者が電子透かしを偽造することで、任意のテキストを特定のLLMであると偽ることができる。最近の研究により、最新の方式が実際になりすましに対して脆弱であることが実証されているが、なりすまし手法によって生成されたテキストのより深い質的分析が欠如している。本研究では、真正の電子透かしテキストとなりすましの電子透かしテキストには観察可能な違いがあることを初めて明らかにする。すなわち、現在のすべてのなりすまし手法は、その基本的なアプローチにかかわらず、なりすましテキストに透かし偽造を示す観察可能なアーチファクトを一貫して残すことを示す。我々はこれらの発見を基に、このようなアーチファクトの存在を確実に明らかにし、電子透かしが偽装されたことを効果的に発見する厳密な統計的テストを提案する。我々の実験的評価では、現在の全てのなりすまし手法において高い検出力を示し、その基本的な限界についての洞察を提供するとともに、この脅威を軽減する方法を提案する。

要約(オリジナル)

LLM watermarks stand out as a promising way to attribute ownership of LLM-generated text. One threat to watermark credibility comes from spoofing attacks, where an unauthorized third party forges the watermark, enabling it to falsely attribute arbitrary texts to a particular LLM. While recent works have demonstrated that state-of-the-art schemes are in fact vulnerable to spoofing, they lack deeper qualitative analysis of the texts produced by spoofing methods. In this work, we for the first time reveal that there are observable differences between genuine and spoofed watermark texts. Namely, we show that regardless of their underlying approach, all current spoofing methods consistently leave observable artifacts in spoofed texts, indicative of watermark forgery. We build upon these findings to propose rigorous statistical tests that reliably reveal the presence of such artifacts, effectively discovering that a watermark was spoofed. Our experimental evaluation shows high test power across all current spoofing methods, providing insights into their fundamental limitations, and suggesting a way to mitigate this threat.

arxiv情報

著者 Thibaud Gloaguen,Nikola Jovanović,Robin Staab,Martin Vechev
発行日 2024-10-03 17:18:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク