Fake It Until You Break It: On the Adversarial Robustness of AI-generated Image Detectors

要約

ジェネレーティブAI(GenAI)は創造的で生産的なタスクに無数の可能性を提供する一方で、人工的に生成されたメディアは詐欺、操作、詐欺、誤報キャンペーンなどに悪用される可能性がある。悪意を持って生成されたメディアに関連するリスクを軽減するために、AIが生成したコンテンツを識別するためのフォレンジック分類器が採用されている。しかし、現在のフォレンジック分類器は、攻撃者の存在や、ソーシャルメディアの劣化のような現実世界のアーティファクトが画像に影響を与える場合など、実際に関連するシナリオでは評価されないことが多い。本稿では、様々な攻撃シナリオの下で、最先端のAI生成画像(AIGI)検出器を評価する。攻撃者がターゲットモデルにアクセスできず、ソーシャルメディアプラットフォームで標準的な、敵対的な例が作成された後に後処理が行われる場合でも、フォレンジック分類器が現実的な設定で効果的に攻撃される可能性があることを実証する。このような攻撃は、検出器に頼ることのリスクがその利点を上回るほど、検出精度を著しく低下させる可能性がある。最後に、現在最高性能の検出器であるCLIPベースの検出器を、これらの攻撃に対して頑健にするための簡単な防御メカニズムを提案する。

要約(オリジナル)

While generative AI (GenAI) offers countless possibilities for creative and productive tasks, artificially generated media can be misused for fraud, manipulation, scams, misinformation campaigns, and more. To mitigate the risks associated with maliciously generated media, forensic classifiers are employed to identify AI-generated content. However, current forensic classifiers are often not evaluated in practically relevant scenarios, such as the presence of an attacker or when real-world artifacts like social media degradations affect images. In this paper, we evaluate state-of-the-art AI-generated image (AIGI) detectors under different attack scenarios. We demonstrate that forensic classifiers can be effectively attacked in realistic settings, even when the attacker does not have access to the target model and post-processing occurs after the adversarial examples are created, which is standard on social media platforms. These attacks can significantly reduce detection accuracy to the extent that the risks of relying on detectors outweigh their benefits. Finally, we propose a simple defense mechanism to make CLIP-based detectors, which are currently the best-performing detectors, robust against these attacks.

arxiv情報

著者 Sina Mavali,Jonas Ricker,David Pape,Yash Sharma,Asja Fischer,Lea Schönherr
発行日 2024-10-03 10:11:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク