Lost in Overlap: Exploring Watermark Collision in LLMs

要約

コンテンツ生成における大規模言語モデル (LLM) の急増により、テキストの著作権に関する懸念が生じています。
透かしを入れる方法、特にロジットベースのアプローチでは、これらの課題に対処するために、知覚できない識別子をテキストに埋め込みます。
ただし、さまざまな LLM でウォーターマークが広く使用されているため、言い換えや翻訳などの一般的なタスク中にウォーターマークの衝突として知られる避けられない問題が発生しています。
この文書では、他の攻撃方法に加えて攻撃パフォーマンスを向上させることを目的とした、ウォーターマーク攻撃の新規かつ一般的な哲学としてウォーターマーク衝突を紹介します。
また、ウォーターマーク衝突がすべてのロジットベースのウォーターマーク アルゴリズムに脅威をもたらし、特定の攻撃シナリオだけでなく、ダウンストリーム アプリケーションにも影響を与えるという包括的なデモンストレーションも提供します。

要約(オリジナル)

The proliferation of large language models (LLMs) in generating content raises concerns about text copyright. Watermarking methods, particularly logit-based approaches, embed imperceptible identifiers into text to address these challenges. However, the widespread usage of watermarking across diverse LLMs has led to an inevitable issue known as watermark collision during common tasks, such as paraphrasing or translation. In this paper, we introduce watermark collision as a novel and general philosophy for watermark attacks, aimed at enhancing attack performance on top of any other attacking methods. We also provide a comprehensive demonstration that watermark collision poses a threat to all logit-based watermark algorithms, impacting not only specific attack scenarios but also downstream applications.

arxiv情報

著者 Yiyang Luo,Ke Lin,Chao Gu
発行日 2024-08-14 13:15:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.MM パーマリンク