A Transfer Attack to Image Watermarks

要約

Watermark は、AI で生成された画像を検出するために業界で広く導入されています。
ホワイトボックスおよびブラックボックス設定における回避攻撃に対するこのような透かしベースの検出器の堅牢性は、文献でよく理解されています。
ただし、ボックスなし設定の堅牢性については、あまり理解されていません。
特に、複数の研究では、そのような設定では画像の透かしが堅牢であると主張されています。
本研究では、ノーボックス設定における画像透かしに対する新たな転送回避攻撃を提案する。
私たちの転送攻撃は、透かし入り画像に摂動を加えて、攻撃者自身が訓練した複数の代理透かしモデルを回避し、摂動された透かし入り画像はターゲットの透かしモデルも回避します。
私たちの主な貢献は、理論的にも経験的にも、攻撃者が透かしモデルや検出 API にアクセスできない場合でも、透かしベースの AI 生成画像検出器が回避攻撃に対して堅牢ではないことを示すことです。

要約(オリジナル)

Watermark has been widely deployed by industry to detect AI-generated images. The robustness of such watermark-based detector against evasion attacks in the white-box and black-box settings is well understood in the literature. However, the robustness in the no-box setting is much less understood. In particular, multiple studies claimed that image watermark is robust in such setting. In this work, we propose a new transfer evasion attack to image watermark in the no-box setting. Our transfer attack adds a perturbation to a watermarked image to evade multiple surrogate watermarking models trained by the attacker itself, and the perturbed watermarked image also evades the target watermarking model. Our major contribution is to show that, both theoretically and empirically, watermark-based AI-generated image detector is not robust to evasion attacks even if the attacker does not have access to the watermarking model nor the detection API.

arxiv情報

著者 Yuepeng Hu,Zhengyuan Jiang,Moyang Guo,Neil Gong
発行日 2024-03-25 03:06:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク