DeeCLIP: A Robust and Generalizable Transformer-Based Framework for Detecting AI-Generated Images

要約

このペーパーでは、Clip-vitおよびFusion学習を使用してAIに生成された画像を検出するための新しいフレームワークであるDeeClipを紹介します。
高度に光リアリスティックな画像を作成できる生成モデルの大幅な進歩にもかかわらず、既存の検出方法はしばしば異なるモデルで一般化するのに苦労し、軽微な摂動に非常に敏感です。
これらの課題に対処するために、DeeClipには、高レベルと低レベルの機能を組み合わせた融合モジュールであるDeeFuserが組み込まれ、圧縮やぼやけなどの分解に対する堅牢性が向上します。
さらに、トリプレットの損失を適用して埋め込みスペースを改良し、実際のコンテンツと合成含有量を区別するモデルの能力を高めます。
事前に訓練された知識を維持しながら軽量適応をさらに有効にするために、クリップビットバックボーン内で低ランク適応(LORA)を使用してパラメーター効率の高い微調整を採用します。
このアプローチは、一般化を犠牲にすることなく、効果的なゼロショット学習をサポートします。
4クラスのProganデータのみで訓練されたDeeClipは、生成敵対的ネットワーク(GAN)および拡散モデルで構成される19のテストサブセットで89.00%の平均精度を達成します。
トレーニング可能なパラメーターが少ないにもかかわらず、DeeClipは既存の方法を上回り、さまざまな生成モデルと実際の歪みに対する優れた堅牢性を示しています。
このコードは、研究目的でhttps://github.com/mamadou-keita/deeclipで公開されています。

要約(オリジナル)

This paper introduces DeeCLIP, a novel framework for detecting AI-generated images using CLIP-ViT and fusion learning. Despite significant advancements in generative models capable of creating highly photorealistic images, existing detection methods often struggle to generalize across different models and are highly sensitive to minor perturbations. To address these challenges, DeeCLIP incorporates DeeFuser, a fusion module that combines high-level and low-level features, improving robustness against degradations such as compression and blurring. Additionally, we apply triplet loss to refine the embedding space, enhancing the model’s ability to distinguish between real and synthetic content. To further enable lightweight adaptation while preserving pre-trained knowledge, we adopt parameter-efficient fine-tuning using low-rank adaptation (LoRA) within the CLIP-ViT backbone. This approach supports effective zero-shot learning without sacrificing generalization. Trained exclusively on 4-class ProGAN data, DeeCLIP achieves an average accuracy of 89.00% on 19 test subsets composed of generative adversarial network (GAN) and diffusion models. Despite having fewer trainable parameters, DeeCLIP outperforms existing methods, demonstrating superior robustness against various generative models and real-world distortions. The code is publicly available at https://github.com/Mamadou-Keita/DeeCLIP for research purposes.

arxiv情報

著者 Mamadou Keita,Wassim Hamidouche,Hessen Bougueffa Eutamene,Abdelmalik Taleb-Ahmed,Abdenour Hadid
発行日 2025-04-28 15:06:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV パーマリンク