Evading Watermark based Detection of AI-Generated Content

要約

生成 AI モデルは非常にリアルな見た目のコンテンツを生成する可能性があり、情報の信頼性に対する課題が増大しています。
この課題に対処するために、ウォーターマークを活用して AI によって生成されたコンテンツを検出しました。
具体的には、AI が生成したコンテンツがリリースされる前に、透かしが埋め込まれます。
コンテンツから同様のウォーターマークをデコードできる場合、そのコンテンツは AI によって生成されたものとして検出されます。
この研究では、このような透かしベースの AI 生成コンテンツ検出の堅牢性に関する体系的な研究を実行します。
AIが生成した画像に焦点を当てています。
私たちの研究は、攻撃者が透かし入りの画像に人間には知覚できない小さな摂動を追加することで、後処理された画像が視覚的な品質を維持しながら検出を回避できることを示しています。
私たちは攻撃の有効性を理論的にも経験的にも示します。
さらに、検出を回避するために、当社の敵対的な後処理方法は、AI で生成された画像にはるかに小さな摂動を追加するため、JPEG 圧縮、ガウスぼかし、明るさ/コントラストなどの既存の一般的な後処理方法よりも視覚的な品質をよりよく維持します。
私たちの研究は、AI によって生成されたコンテンツに対する既存の透かしベースの検出が不十分であることを示しており、新しい方法の緊急の必要性を浮き彫りにしています。
私たちのコードは https://github.com/zhengyuan-jiang/WEvade で公開されています。

要約(オリジナル)

A generative AI model can generate extremely realistic-looking content, posing growing challenges to the authenticity of information. To address the challenges, watermark has been leveraged to detect AI-generated content. Specifically, a watermark is embedded into an AI-generated content before it is released. A content is detected as AI-generated if a similar watermark can be decoded from it. In this work, we perform a systematic study on the robustness of such watermark-based AI-generated content detection. We focus on AI-generated images. Our work shows that an attacker can post-process a watermarked image via adding a small, human-imperceptible perturbation to it, such that the post-processed image evades detection while maintaining its visual quality. We show the effectiveness of our attack both theoretically and empirically. Moreover, to evade detection, our adversarial post-processing method adds much smaller perturbations to AI-generated images and thus better maintain their visual quality than existing popular post-processing methods such as JPEG compression, Gaussian blur, and Brightness/Contrast. Our work shows the insufficiency of existing watermark-based detection of AI-generated content, highlighting the urgent needs of new methods. Our code is publicly available: https://github.com/zhengyuan-jiang/WEvade.

arxiv情報

著者 Zhengyuan Jiang,Jinghuai Zhang,Neil Zhenqiang Gong
発行日 2023-11-08 15:23:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク