Raising the Bar of AI-generated Image Detection with CLIP

要約

この研究の目的は、AI が生成した画像を普遍的に検出するための、事前トレーニング済み視覚言語モデル (VLM) の可能性を探ることです。
私たちは CLIP 機能に基づいた軽量の検出戦略を開発し、さまざまな困難なシナリオにおけるそのパフォーマンスを研究します。
これまでの考えに反して、トレーニングに大規模なドメイン固有のデータセットを使用することは必要でも便利でもないことがわかりました。
それどころか、CLIP ベースの検出器は、単一の生成モデルからの少数のサンプル画像のみを使用することで、Dalle-3、Midjourney v5、Firefly などの最近の商用ツールを含む、さまざまなアーキテクチャにわたって驚くべき一般化能力と高い堅牢性を示します。
当社は、配信内データに最先端 (SoTA) を適用し、配信外データへの一般化 (+6% AUC) および損なわれた/ロンダリングされたデータに対する堅牢性 (+13) の点で大幅に改善しました。
%)。
私たちのプロジェクトは https://grip-unina.github.io/ClipBased-SyntheticImageDetection/ で入手できます。

要約(オリジナル)

The aim of this work is to explore the potential of pre-trained vision-language models (VLMs) for universal detection of AI-generated images. We develop a lightweight detection strategy based on CLIP features and study its performance in a wide variety of challenging scenarios. We find that, contrary to previous beliefs, it is neither necessary nor convenient to use a large domain-specific dataset for training. On the contrary, by using only a handful of example images from a single generative model, a CLIP-based detector exhibits surprising generalization ability and high robustness across different architectures, including recent commercial tools such as Dalle-3, Midjourney v5, and Firefly. We match the state-of-the-art (SoTA) on in-distribution data and significantly improve upon it in terms of generalization to out-of-distribution data (+6% AUC) and robustness to impaired/laundered data (+13%). Our project is available at https://grip-unina.github.io/ClipBased-SyntheticImageDetection/

arxiv情報

著者 Davide Cozzolino,Giovanni Poggi,Riccardo Corvi,Matthias Nießner,Luisa Verdoliva
発行日 2024-04-29 14:25:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク