要約
特にGANおよび拡散モデルの出現による画像統合の最近の進歩は、偽情報の普及に関する一般的な懸念を増幅しました。
このような懸念に対処するために、多くのAIに生成された画像(AIGI)検出器が提案され、偽の画像を特定する上で有望なパフォーマンスを達成しました。
しかし、AIGI検出器の敵対的な堅牢性についての体系的な理解はまだありません。
この論文では、ホワイトボックスおよびブラックボックスの設定での敵対的攻撃に対する最先端のAIGI検出器の脆弱性を調べます。これはこれまで調査されていません。
この目的のために、AIGI検出器を攻撃する新しい方法を提案します。
まず、周波数ドメイン内の実際の画像と偽の画像の明らかな違いに触発されて、周波数ドメインの下に摂動を追加して、元の頻度分布から画像を押しのけます。
第二に、代理モデルの完全な後方分布を調査して、不均一なAIGI検出器間のこのギャップをさらに狭める、例えば
CNNとvitsに敵対例を転送します。
これは、単一の代理をベイジアンの代理人に変える新しいトレイン後のベイジアン戦略を導入することで達成され、再トレーニングを必要とせずに、1つの事前訓練を受けた代理を使用して多様な犠牲者モデルをシミュレートできます。
この方法では、周波数ベースのトレイン後のベイジアン攻撃、またはFPBAと名付けます。
FPBAを通じて、FPBAはAIGI検出器に対する真の脅威であることを示しています。FPBAは、モデル、ジェネレーター、防御方法を越えて成功したブラックボックス攻撃を提供し、重要な現実世界の検出シナリオであるクロスジェネレーター検出を回避できることを示しています。
コードは受け入れられると共有されます。
要約(オリジナル)
Recent advancements in image synthesis, particularly with the advent of GAN and Diffusion models, have amplified public concerns regarding the dissemination of disinformation. To address such concerns, numerous AI-generated Image (AIGI) Detectors have been proposed and achieved promising performance in identifying fake images. However, there still lacks a systematic understanding of the adversarial robustness of AIGI detectors. In this paper, we examine the vulnerability of state-of-the-art AIGI detectors against adversarial attack under white-box and black-box settings, which has been rarely investigated so far. To this end, we propose a new method to attack AIGI detectors. First, inspired by the obvious difference between real images and fake images in the frequency domain, we add perturbations under the frequency domain to push the image away from its original frequency distribution. Second, we explore the full posterior distribution of the surrogate model to further narrow this gap between heterogeneous AIGI detectors, e.g. transferring adversarial examples across CNNs and ViTs. This is achieved by introducing a novel post-train Bayesian strategy that turns a single surrogate into a Bayesian one, capable of simulating diverse victim models using one pre-trained surrogate, without the need for re-training. We name our method as Frequency-based Post-train Bayesian Attack, or FPBA. Through FPBA, we show that adversarial attack is truly a real threat to AIGI detectors, because FPBA can deliver successful black-box attacks across models, generators, defense methods, and even evade cross-generator detection, which is a crucial real-world detection scenario. The code will be shared upon acceptance.
arxiv情報
著者 | Yunfeng Diao,Naixin Zhai,Changtao Miao,Zitong Yu,Xingxing Wei,Xun Yang,Meng Wang |
発行日 | 2025-03-10 06:54:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google