要約
人工知能生成画像(AIGI)の急速な進歩により、偽造や誤った情報などの悪意のある使用が促進されました。
したがって、偽の画像を検出するための多くの方法が提案されています。
このような検出器は、敵対的な攻撃に対して普遍的に脆弱であることが証明されていますが、この分野の防御は希少です。
この論文では、最初に、最も効果的な防御と広く見なされている敵対的な訓練(AT)が、AIGI検出のパフォーマンス崩壊に苦しんでいることを特定します。
情報理論的レンズを通じて、崩壊の原因は、特徴的な相互情報の保存を混乱させるエンタングルメントを特徴とするものと考えます。
代わりに、標準検出器は明確な特徴分離を示します。
この違いに動機付けられて、AIGI検出のための最初のトレーニングなしの敵対的防御である情報理論対策(TRIM)を介したトレーニングフリーの堅牢な検出を提案します。
予測エントロピーとKLの発散を使用して、標準検出器に基づいてトリムビルドを使用し、特徴シフトを定量化します。
複数のデータセットと攻撃にわたる広範な実験は、トリムの優位性を検証します。たとえば、最先端の防御をProgan(genimage)で33.88%(28.91%)よりも優れていますが、元の精度を維持します。
要約(オリジナル)
Rapid advances in Artificial Intelligence Generated Images (AIGI) have facilitated malicious use, such as forgery and misinformation. Therefore, numerous methods have been proposed to detect fake images. Although such detectors have been proven to be universally vulnerable to adversarial attacks, defenses in this field are scarce. In this paper, we first identify that adversarial training (AT), widely regarded as the most effective defense, suffers from performance collapse in AIGI detection. Through an information-theoretic lens, we further attribute the cause of collapse to feature entanglement, which disrupts the preservation of feature-label mutual information. Instead, standard detectors show clear feature separation. Motivated by this difference, we propose Training-free Robust Detection via Information-theoretic Measures (TRIM), the first training-free adversarial defense for AIGI detection. TRIM builds on standard detectors and quantifies feature shifts using prediction entropy and KL divergence. Extensive experiments across multiple datasets and attacks validate the superiority of our TRIM, e.g., outperforming the state-of-the-art defense by 33.88% (28.91%) on ProGAN (GenImage), while well maintaining original accuracy.
arxiv情報
著者 | Ruixuan Zhang,He Wang,Zhengyu Zhao,Zhiqing Guo,Xun Yang,Yunfeng Diao,Meng Wang |
発行日 | 2025-05-28 17:20:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google