Fake It Until You Break It: On the Adversarial Robustness of AI-generated Image Detectors

要約

生成 AI (GenAI) は創造的で生産的なタスクに無数の可能性をもたらしますが、人工的に生成されたメディアは詐欺、操作、詐欺、誤報キャンペーンなどに悪用される可能性があります。
悪意を持って生成されたメディアに関連するリスクを軽減するために、フォレンジック分類器を使用して AI によって生成されたコンテンツを識別します。
ただし、現在のフォレンジック分類器は、攻撃者の存在や、ソーシャル メディアの劣化などの現実世界のアーティファクトが画像に影響を与える場合など、実際に関連するシナリオでは評価されないことがよくあります。
このペーパーでは、さまざまな攻撃シナリオの下で最先端の AI 生成画像 (AIGI) 検出器を評価します。
私たちは、攻撃者がターゲット モデルにアクセスできず、ソーシャル メディア プラットフォームの標準である敵対的な例が作成された後に後処理が行われる場合でも、現実的な設定でフォレンジック分類子を効果的に攻撃できることを実証します。
これらの攻撃は、検出器に依存するリスクがその利点を上回るほど、検出精度を大幅に低下させる可能性があります。
最後に、現在最もパフォーマンスの高い検出器である CLIP ベースの検出器をこれらの攻撃に対して堅牢にするための単純な防御メカニズムを提案します。

要約(オリジナル)

While generative AI (GenAI) offers countless possibilities for creative and productive tasks, artificially generated media can be misused for fraud, manipulation, scams, misinformation campaigns, and more. To mitigate the risks associated with maliciously generated media, forensic classifiers are employed to identify AI-generated content. However, current forensic classifiers are often not evaluated in practically relevant scenarios, such as the presence of an attacker or when real-world artifacts like social media degradations affect images. In this paper, we evaluate state-of-the-art AI-generated image (AIGI) detectors under different attack scenarios. We demonstrate that forensic classifiers can be effectively attacked in realistic settings, even when the attacker does not have access to the target model and post-processing occurs after the adversarial examples are created, which is standard on social media platforms. These attacks can significantly reduce detection accuracy to the extent that the risks of relying on detectors outweigh their benefits. Finally, we propose a simple defense mechanism to make CLIP-based detectors, which are currently the best-performing detectors, robust against these attacks.

arxiv情報

著者 Sina Mavali,Jonas Ricker,David Pape,Yash Sharma,Asja Fischer,Lea Schoenherr
発行日 2024-10-02 14:11:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク