SKDU at De-Factify 4.0: Vision Transformer with Data Augmentation for AI-Generated Image Detection

要約

この作業の目的は、事前に訓練されたビジョン言語モデルの可能性を調査することです。
Vision Transformers(VIT)は、AIに生成された画像を検出するための高度なデータ増強戦略で強化されました。
私たちのアプローチは、factify-4.0データセットで訓練された微調整されたVITモデルを活用します。これには、安定した拡散2.1、安定した拡散XL、安定した拡散3、Dall-E 3、Midjourneyなどの最先端モデルによって生成された画像が含まれます。
モデルの堅牢性と一般化を改善するために、トレーニング中にフリッピング、回転、ガウスノイズインジェクション、JPEG圧縮などの摂動技術を採用しています。
実験結果は、VITベースのパイプラインが最先端のパフォーマンスを達成し、検証データセットとテストデータセットの両方で競合する方法を大幅に上回ることを示しています。

要約(オリジナル)

The aim of this work is to explore the potential of pre-trained vision-language models, e.g. Vision Transformers (ViT), enhanced with advanced data augmentation strategies for the detection of AI-generated images. Our approach leverages a fine-tuned ViT model trained on the Defactify-4.0 dataset, which includes images generated by state-of-the-art models such as Stable Diffusion 2.1, Stable Diffusion XL, Stable Diffusion 3, DALL-E 3, and MidJourney. We employ perturbation techniques like flipping, rotation, Gaussian noise injection, and JPEG compression during training to improve model robustness and generalisation. The experimental results demonstrate that our ViT-based pipeline achieves state-of-the-art performance, significantly outperforming competing methods on both validation and test datasets.

arxiv情報

著者 Shrikant Malviya,Neelanjan Bhowmik,Stamos Katsigiannis
発行日 2025-03-24 15:53:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク