GIM: A Million-scale Benchmark for Generative Image Manipulation Detection and Localization

要約

生成モデルの並外れた能力は、画像編集およびリアルな画像の生成における新しいトレンドとして台頭しており、マルチメディア データの信頼性に深刻な脅威をもたらし、画像操作の検出と位置特定 (IMDL) の研究を推進しています。
ただし、大規模なデータ基盤がないため、IMDL タスクは達成できません。
このペーパーでは、SAM、LLM、生成モデルの強力な機能を統合するローカル操作データ生成パイプラインを構築します。
これに基づいて、次の利点を持つ GIM データセットを提案します。 1) 大規模な GIM には、AI で操作された画像と実際の画像のペアが 100 万以上含まれています。
2) 豊富な画像コンテンツ。GIM は広範囲の画像クラスを網羅します。
3) 多様な生成操作、画像は最先端のジェネレーターとさまざまな操作タスクを使用して操作された画像です。
前述の利点により、IMDL 手法のより包括的な評価が可能になり、さまざまな画像への適用可能性が拡張されます。
既存の IMDL メソッドを評価するための 2 つの設定を備えた GIM ベンチマークを紹介します。
さらに、GIMFormer と呼ばれる新しい IMDL フレームワークを提案します。これは、ShadowTracer、周波数空間ブロック (FSB)、およびマルチウィンドウ異常モデリング (MWAM) モジュールで構成されます。
GIM に関する広範な実験により、GIMFormer が 2 つの異なるベンチマークで以前の最先端のアプローチを上回ることが実証されました。

要約(オリジナル)

The extraordinary ability of generative models emerges as a new trend in image editing and generating realistic images, posing a serious threat to the trustworthiness of multimedia data and driving the research of image manipulation detection and location (IMDL). However, the lack of a large-scale data foundation makes the IMDL task unattainable. In this paper, we build a local manipulation data generation pipeline that integrates the powerful capabilities of SAM, LLM, and generative models. Upon this basis, we propose the GIM dataset, which has the following advantages: 1) Large scale, GIM includes over one million pairs of AI-manipulated images and real images. 2) Rich image content, GIM encompasses a broad range of image classes. 3) Diverse generative manipulation, the images are manipulated images with state-of-the-art generators and various manipulation tasks. The aforementioned advantages allow for a more comprehensive evaluation of IMDL methods, extending their applicability to diverse images. We introduce the GIM benchmark with two settings to evaluate existing IMDL methods. In addition, we propose a novel IMDL framework, termed GIMFormer, which consists of a ShadowTracer, Frequency-Spatial block (FSB), and a Multi-Window Anomalous Modeling (MWAM) module. Extensive experiments on the GIM demonstrate that GIMFormer surpasses the previous state-of-the-art approach on two different benchmarks.

arxiv情報

著者 Yirui Chen,Xudong Huang,Quan Zhang,Wei Li,Mingjian Zhu,Qiangyu Yan,Simiao Li,Hanting Chen,Hailin Hu,Jie Yang,Wei Liu,Jie Hu
発行日 2025-01-13 14:34:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク