Fake or JPEG? Revealing Common Biases in Generated Image Detection Datasets

要約

生成画像モデルの普及により、人工コンテンツを検出する緊急の必要性が浮き彫りになりました。これは、広範囲にわたる操作や誤った情報と闘う上で重要なステップです。
その結果、多数の検出器と関連データセットが登場しました。
ただし、これらのデータセットの多くは意図せずに望ましくないバイアスを導入し、それによって検出器の有効性と評価に影響を与えます。
この論文では、AI によって生成された画像検出用の多くのデータセットには JPEG 圧縮と画像サイズに関連するバイアスが含まれていることを強調します。
GenImage データセットを使用して、検出器が実際にこれらの望ましくない要因から学習することを実証します。
さらに、名前付きバイアスを削除すると、JPEG 圧縮に対する堅牢性が大幅に向上し、評価された検出器のクロスジェネレーターのパフォーマンスが大幅に変化することを示します。
具体的には、GenImage データセット上の ResNet50 および Swin-T 検出器のクロスジェネレーターのパフォーマンスが 11 パーセント以上向上し、最先端の結果が得られます。
この論文のデータセットとソース コードは匿名の Web サイト https://www.unbiased-genimage.org で提供されています。

要約(オリジナル)

The widespread adoption of generative image models has highlighted the urgent need to detect artificial content, which is a crucial step in combating widespread manipulation and misinformation. Consequently, numerous detectors and associated datasets have emerged. However, many of these datasets inadvertently introduce undesirable biases, thereby impacting the effectiveness and evaluation of detectors. In this paper, we emphasize that many datasets for AI-generated image detection contain biases related to JPEG compression and image size. Using the GenImage dataset, we demonstrate that detectors indeed learn from these undesired factors. Furthermore, we show that removing the named biases substantially increases robustness to JPEG compression and significantly alters the cross-generator performance of evaluated detectors. Specifically, it leads to more than 11 percentage points increase in cross-generator performance for ResNet50 and Swin-T detectors on the GenImage dataset, achieving state-of-the-art results. We provide the dataset and source codes of this paper on the anonymous website: https://www.unbiased-genimage.org

arxiv情報

著者 Patrick Grommelt,Louis Weiss,Franz-Josef Pfreundt,Janis Keuper
発行日 2024-03-28 15:24:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク