A Large-scale AI-generated Image Inpainting Benchmark

要約

生成モデルの最近の進歩により、非常に現実的な画像操作が可能になり、堅牢な偽造検出方法が緊急に必要になります。
これらの方法をトレーニングおよび評価するための現在のデータセットの規模と多様性は限られています。
これに対処するために、高品質の入力データセットを作成するための方法論を提案し、MS-Coco、Raise、およびOpenImagesから供給された78,000個のオリジナル画像から生成された95,000を超えるインペイントされた画像を含むfiquidを作成するために適用します。
私たちの方法論は、3つのコンポーネントで構成されています:(1)インスタンスセグメンテーションを通じて適切なオブジェクトを識別し、コンテキストに適切なプロンプトを生成する意味的に整列したオブジェクト置換(SAOR)、(2)さまざまな最先端の最先端を採用する複数のモデル画像インペインティング(MMII)
主に拡散モデルに基づいてパイプラインを開始して、多様な操作を作成し、(3)オリジナルとの比較分析を通じて画像リアリズムを評価する不確実性ガイド付き欺ceptivensive評価(UGDA)。
結果のデータセットは、多様性、審美的な品質、技術的な品質の既存のデータセットを上回ります。
最先端の偽造検出方法を使用して包括的なベンチマーク結果を提供し、検出アルゴリズムの評価と改善におけるデータセットの有効性を実証します。
1,000枚の画像で42人の参加者がいる人間の研究を通じて、人間は私たちの方法論によって欺くと分類された画像に苦労しているが、データセットで訓練されたモデルはこれらの困難なケースで高性能を維持していることを示しています。
コードとデータセットはhttps://github.com/mever-team/diquidで入手できます。

要約(オリジナル)

Recent advances in generative models enable highly realistic image manipulations, creating an urgent need for robust forgery detection methods. Current datasets for training and evaluating these methods are limited in scale and diversity. To address this, we propose a methodology for creating high-quality inpainting datasets and apply it to create DiQuID, comprising over 95,000 inpainted images generated from 78,000 original images sourced from MS-COCO, RAISE, and OpenImages. Our methodology consists of three components: (1) Semantically Aligned Object Replacement (SAOR) that identifies suitable objects through instance segmentation and generates contextually appropriate prompts, (2) Multiple Model Image Inpainting (MMII) that employs various state-of-the-art inpainting pipelines primarily based on diffusion models to create diverse manipulations, and (3) Uncertainty-Guided Deceptiveness Assessment (UGDA) that evaluates image realism through comparative analysis with originals. The resulting dataset surpasses existing ones in diversity, aesthetic quality, and technical quality. We provide comprehensive benchmarking results using state-of-the-art forgery detection methods, demonstrating the dataset’s effectiveness in evaluating and improving detection algorithms. Through a human study with 42 participants on 1,000 images, we show that while humans struggle with images classified as deceiving by our methodology, models trained on our dataset maintain high performance on these challenging cases. Code and dataset are available at https://github.com/mever-team/DiQuID.

arxiv情報

著者 Paschalis Giakoumoglou,Dimitrios Karageorgiou,Symeon Papadopoulos,Panagiotis C. Petrantonakis
発行日 2025-02-10 15:56:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク