ImagiNet: A Multi-Content Dataset for Generalizable Synthetic Image Detection via Contrastive Learning

要約

拡散モデル (DM)、変分オートエンコーダー (VAE)、敵対的生成ネットワーク (GAN) などの生成モデルは、本物の写真やアートワークとほとんど区別できないレベルの信頼性を持つ画像を生成します。
この機能は多くの業界にとって有益ですが、合成画像の識別が難しいため、オンライン メディア プラットフォームはなりすましや誤った情報の試みに対して脆弱になります。
防御手法の開発をサポートするために、既存のリソースの潜在的なバイアスを軽減するように設計された、合成画像検出用の高解像度でバランスの取れたデータセットである ImagineNet を紹介します。
写真、絵画、顔、未分類の 4 つのコンテンツ カテゴリにわたる 20 万件の例が含まれています。
合成画像はオープンソースおよび独自のジェネレーターを使用して生成されますが、同じコンテンツ タイプの実際の画像は公開データセットから収集されます。
ImagiNet の構造では、i) 本物か合成かの分類、および ii) 生成モデルの識別という 2 つのトラックの評価システムが可能です。
ベースラインを確立するために、各トラックの自己教師あり対比対物レンズ (SelfCon) を使用して ResNet-50 モデルをトレーニングします。
このモデルは、確立されたベンチマーク全体で最先端のパフォーマンスと高い推論速度を実証し、圧縮やサイズ変更を伴うソーシャル ネットワーク条件下でも、最大 0.99 の AUC と 86% ~ 95% のバランスのとれた精度を達成します。
データとコードは https://github.com/delyan-boychev/imaginet で入手できます。

要約(オリジナル)

Generative models, such as diffusion models (DMs), variational autoencoders (VAEs), and generative adversarial networks (GANs), produce images with a level of authenticity that makes them nearly indistinguishable from real photos and artwork. While this capability is beneficial for many industries, the difficulty of identifying synthetic images leaves online media platforms vulnerable to impersonation and misinformation attempts. To support the development of defensive methods, we introduce ImagiNet, a high-resolution and balanced dataset for synthetic image detection, designed to mitigate potential biases in existing resources. It contains 200K examples, spanning four content categories: photos, paintings, faces, and uncategorized. Synthetic images are produced with open-source and proprietary generators, whereas real counterparts of the same content type are collected from public datasets. The structure of ImagiNet allows for a two-track evaluation system: i) classification as real or synthetic and ii) identification of the generative model. To establish a baseline, we train a ResNet-50 model using a self-supervised contrastive objective (SelfCon) for each track. The model demonstrates state-of-the-art performance and high inference speed across established benchmarks, achieving an AUC of up to 0.99 and balanced accuracy ranging from 86% to 95%, even under social network conditions that involve compression and resizing. Our data and code are available at https://github.com/delyan-boychev/imaginet.

arxiv情報

著者 Delyan Boychev,Radostin Cholakov
発行日 2024-07-29 13:57:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク