Watermark Stealing in Large Language Models

要約

LLM 透かしは、AI によって生成されたコンテンツを検出する有望な方法として注目を集めており、現在のスキームがすでに導入に適している可能性があることを示唆する研究もあります。
この研究では、私たちはこの主張に異議を唱え、ウォーターマーク窃取 (WS) がこれらのスキームの根本的な脆弱性であると特定しています。
ウォーターマークを含む LLM の API をクエリしてウォーターマークをほぼリバース エンジニアリングすると、以前の研究で示唆されているように実際的なスプーフィング攻撃が可能になるだけでなく、これまで気づかれなかったスクラビング攻撃も大幅に強化されることを示します。
私たちは自動化された WS アルゴリズムを初めて提案し、現実的な設定におけるスプーフィングとスクラビングの最初の包括的な研究にそれを使用しました。
私たちは、攻撃者が 50 ドル未満で、これまで安全だと考えられていた最先端のスキームをスプーフィングおよびスクラブすることができ、平均成功率は 80% 以上であることを示しました。
私たちの調査結果は、LLM 透かし入れに関する一般的な信念に疑問を投げかけ、より堅牢なスキームの必要性を強調しています。
すべてのコードと追加のサンプルは https://watermark-stealing.org で入手できます。

要約(オリジナル)

LLM watermarking has attracted attention as a promising way to detect AI-generated content, with some works suggesting that current schemes may already be fit for deployment. In this work we dispute this claim, identifying watermark stealing (WS) as a fundamental vulnerability of these schemes. We show that querying the API of the watermarked LLM to approximately reverse-engineer a watermark enables practical spoofing attacks, as suggested in prior work, but also greatly boosts scrubbing attacks, which was previously unnoticed. We are the first to propose an automated WS algorithm and use it in the first comprehensive study of spoofing and scrubbing in realistic settings. We show that for under $50 an attacker can both spoof and scrub state-of-the-art schemes previously considered safe, with average success rate of over 80%. Our findings challenge common beliefs about LLM watermarking, stressing the need for more robust schemes. We make all our code and additional examples available at https://watermark-stealing.org.

arxiv情報

著者 Nikola Jovanović,Robin Staab,Martin Vechev
発行日 2024-02-29 17:12:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク