RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection

要約

生成 AI モデルの急速な進歩により、任意のコンテンツを含む非常にリアルな画像を作成できるようになり、ディープフェイクなどの潜在的な悪用や危害に対する懸念が高まっています。
現在の研究は、生成された画像の大規模なデータセットを使用して検出器をトレーニングすることに焦点を当てています。
ただし、これらのトレーニングベースのソリューションは多くの場合、計算コストが高く、未確認の生成画像に対する一般化が限られています。
この論文では、実際の画像と AI が生成した画像を区別するためのトレーニング不要の方法を提案します。
まず、実際の画像は、ビジョン基盤モデルの表現空間で AI が生成した画像よりも小さなノイズ摂動に対してより堅牢であることを観察しました。
この観察に基づいて、私たちは、AI によって生成された堅牢な画像検出のためのトレーニング不要でモデルに依存しない手法である RIGID を提案します。
RIGID は、元の画像とノイズで混乱した画像の表現の類似性を比較することで、画像が AI によって生成されたものであるかどうかを識別する、シンプルかつ効果的なアプローチです。
AI によって生成されたさまざまな画像とベンチマークのセットに対する私たちの評価では、RIGID が既存のトレーニングベースおよびトレーニング不要の検出器を大幅に上回るパフォーマンスを示しています。
特に、RIGID の平均パフォーマンスは、現在の最良のトレーニング不要の方法を 25% 以上上回っています。
重要なのは、RIGID がさまざまな画像生成方法にわたる強力な汎用性と、画像破損に対する堅牢性を示していることです。

要約(オリジナル)

The rapid advances in generative AI models have empowered the creation of highly realistic images with arbitrary content, raising concerns about potential misuse and harm, such as Deepfakes. Current research focuses on training detectors using large datasets of generated images. However, these training-based solutions are often computationally expensive and show limited generalization to unseen generated images. In this paper, we propose a training-free method to distinguish between real and AI-generated images. We first observe that real images are more robust to tiny noise perturbations than AI-generated images in the representation space of vision foundation models. Based on this observation, we propose RIGID, a training-free and model-agnostic method for robust AI-generated image detection. RIGID is a simple yet effective approach that identifies whether an image is AI-generated by comparing the representation similarity between the original and the noise-perturbed counterpart. Our evaluation on a diverse set of AI-generated images and benchmarks shows that RIGID significantly outperforms existing trainingbased and training-free detectors. In particular, the average performance of RIGID exceeds the current best training-free method by more than 25%. Importantly, RIGID exhibits strong generalization across different image generation methods and robustness to image corruptions.

arxiv情報

著者 Zhiyuan He,Pin-Yu Chen,Tsung-Yi Ho
発行日 2024-05-30 14:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク