CIFAKE: Image Classification and Explainable Identification of AI-Generated Synthetic Images

要約

最近の合成データの技術的進歩により、人間が実際の写真と人工知能 (AI) によって生成された画像との違いを判別できないほどの高品質の画像を生成できるようになりました。
データの信頼性と認証の重要な必要性を考慮して、この記事では、コンピューター ビジョンを通じて AI が生成した画像を認識する能力を強化することを提案します。
最初に、すでに利用可能な CIFAR-10 データセットの 10 クラスをミラー化した合成データセットが生成され、実際の写真と比較するための対照的な画像セットを提供する潜在拡散が使用されます。
このモデルは、水中での写真のようにリアルな反射など、複雑な視覚属性を生成できます。
この 2 つのデータ セットは、写真が本物であるか AI によって生成されたものであるかに関するバイナリ分類問題として提示されます。
次に、この研究では、畳み込みニューラル ネットワーク (CNN) を使用して画像を 2 つのカテゴリに分類することを提案します。
本物か偽物か。
ハイパーパラメーターの調整と 36 の個別のネットワーク トポロジのトレーニングに続いて、最適なアプローチにより、92.98% の精度で画像を正しく分類できました。
最後に、この調査では、Gradient Class Activation Mapping を介して説明可能な AI を実装し、画像内のどの機能が分類に役立つかを調べます。
解釈は、画像内の興味深い概念を明らかにします。特に、実際のエンティティ自体は分類に役立つ情報を保持していないことに注意してください。
代わりに、モデルは画像の背景にある小さな視覚的欠陥に焦点を当てています。
この研究のために設計された完全なデータセット (CIFAKE データセットと呼ばれる) は、将来の作業のために研究コミュニティに公開されます。

要約(オリジナル)

Recent technological advances in synthetic data have enabled the generation of images with such high quality that human beings cannot tell the difference between real-life photographs and Artificial Intelligence (AI) generated images. Given the critical necessity of data reliability and authentication, this article proposes to enhance our ability to recognise AI-generated images through computer vision. Initially, a synthetic dataset is generated that mirrors the ten classes of the already available CIFAR-10 dataset with latent diffusion which provides a contrasting set of images for comparison to real photographs. The model is capable of generating complex visual attributes, such as photorealistic reflections in water. The two sets of data present as a binary classification problem with regard to whether the photograph is real or generated by AI. This study then proposes the use of a Convolutional Neural Network (CNN) to classify the images into two categories; Real or Fake. Following hyperparameter tuning and the training of 36 individual network topologies, the optimal approach could correctly classify the images with 92.98% accuracy. Finally, this study implements explainable AI via Gradient Class Activation Mapping to explore which features within the images are useful for classification. Interpretation reveals interesting concepts within the image, in particular, noting that the actual entity itself does not hold useful information for classification; instead, the model focuses on small visual imperfections in the background of the images. The complete dataset engineered for this study, referred to as the CIFAKE dataset, is made publicly available to the research community for future work.

arxiv情報

著者 Jordan J. Bird,Ahmad Lotfi
発行日 2023-03-24 16:33:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク