Vulnerabilities in AI-generated Image Detection: The Challenge of Adversarial Attacks

要約

最近の画像合成の進歩、特に GAN と拡散モデルの出現により、偽情報の拡散に対する国民の懸念が増幅されています。
このような懸念に対処するために、多数の AI 生成画像 (AIGI) 検出器が提案され、偽画像の識別において有望なパフォーマンスを達成しています。
ただし、これらの AIGI 検出器の敵対的な堅牢性については体系的な理解がまだ不足しています。
この論文では、これまでほとんど調査されていなかった、ホワイト ボックスおよびブラック ボックス設定下での敵対的攻撃に対する最先端の AIGI 検出器の脆弱性を調査します。
AIGI 検出のタスクのために、2 つの主要な部分を含む新しい攻撃を提案します。
まず、周波数領域における本物の画像と偽の画像の明らかな違いに触発され、周波​​数領域で摂動を追加して、画像を元の周波数分布から遠ざけます。
次に、異種モデル間のこのギャップをさらに狭めるために、代理モデルの完全な事後分布を調査します。
CNN と ViT 間で敵対的な例を転送します。
これは、単一のサロゲートをベイジアンに変換する新しいポストトレーニング ベイジアン戦略を導入することで実現され、再トレーニングを必要とせずに、事前トレーニングされた 1 つのサロゲートを使用して多様な被害者モデルをシミュレートできます。
私たちはこの手法を周波数ベースのポストトレーニング ベイジアン攻撃 (FPBA) と名付けました。
FPBA を通じて、我々は、敵対的攻撃が AIGI 検出器にとって真の脅威であることを示します。FPBA は、モデル、ジェネレーター、防御方法を横断してブラックボックス攻撃を成功させることができ、さらには現実世界の検出において重要なクロスジェネレーター検出を回避することもできるためです。
シナリオ。

要約(オリジナル)

Recent advancements in image synthesis, particularly with the advent of GAN and Diffusion models, have amplified public concerns regarding the dissemination of disinformation. To address such concerns, numerous AI-generated Image (AIGI) Detectors have been proposed and achieved promising performance in identifying fake images. However, there still lacks a systematic understanding of the adversarial robustness of these AIGI detectors. In this paper, we examine the vulnerability of state-of-the-art AIGI detectors against adversarial attack under white-box and black-box settings, which has been rarely investigated so far. For the task of AIGI detection, we propose a new attack containing two main parts. First, inspired by the obvious difference between real images and fake images in the frequency domain, we add perturbations under the frequency domain to push the image away from its original frequency distribution. Second, we explore the full posterior distribution of the surrogate model to further narrow this gap between heterogeneous models, e.g. transferring adversarial examples across CNNs and ViTs. This is achieved by introducing a novel post-train Bayesian strategy that turns a single surrogate into a Bayesian one, capable of simulating diverse victim models using one pre-trained surrogate, without the need for re-training. We name our method as frequency-based post-train Bayesian attack, or FPBA. Through FPBA, we show that adversarial attack is truly a real threat to AIGI detectors, because FPBA can deliver successful black-box attacks across models, generators, defense methods, and even evade cross-generator detection, which is a crucial real-world detection scenario.

arxiv情報

著者 Yunfeng Diao,Naixin Zhai,Changtao Miao,Xun Yang,Meng Wang
発行日 2024-07-30 14:07:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV パーマリンク