A Robust Approach Towards Distinguishing Natural and Computer Generated Images using Multi-Colorspace fused and Enriched Vision Transformer

要約

自然画像とコンピューター生成画像を分類する文献の研究は、ほとんどが自然画像とコンピューター グラフィックス画像のみ、または自然画像と GAN 生成画像のみを考慮したバイナリ タスクとして設計されていますが、自然画像と生成画像の両方のクラスを比較することはしていません。
また、自然画像とコンピュータ生成画像を区別するこの法医学的分類タスクは、優れた分類精度を実現できる新しい畳み込みニューラル ネットワークとトランスフォーマー ベースのアーキテクチャのサポートを受けていますが、何らかの後処理を受けた画像はフェイルオーバーすることが見られます。
JPEG 圧縮やガウス ノイズなどのフォレンジック アルゴリズムを欺くために通常実行される操作。この研究では、2 つのビジョン トランスフォーマーの融合を使用して、自然画像とコンピューター生成画像 (コンピューター グラフィックスと GAN 生成画像の両方を含む) を区別するための堅牢なアプローチを提案しています。
変換ネットワークの 1 つは RGB 色空間、もう 1 つは YCbCr 色空間で動作します。
提案されたアプローチは、一連のベースラインと比較して高いパフォーマンスの向上を達成し、ベースラインよりも高い堅牢性と汎用性も達成します。
提案モデルの特徴を視覚化すると、入力画像特徴やベースライン特徴よりも高いクラス分離性が得られることがわかります。
この研究では、融合モデルのネットワークのアテンション マップ視覚化も研究し、提案された方法論が自然画像と生成画像を分類する法医学タスクに関連するより多くの画像情報を取得できることを観察しています。

要約(オリジナル)

The works in literature classifying natural and computer generated images are mostly designed as binary tasks either considering natural images versus computer graphics images only or natural images versus GAN generated images only, but not natural images versus both classes of the generated images. Also, even though this forensic classification task of distinguishing natural and computer generated images gets the support of the new convolutional neural networks and transformer based architectures that can give remarkable classification accuracies, they are seen to fail over the images that have undergone some post-processing operations usually performed to deceive the forensic algorithms, such as JPEG compression, gaussian noise, etc. This work proposes a robust approach towards distinguishing natural and computer generated images including both, computer graphics and GAN generated images using a fusion of two vision transformers where each of the transformer networks operates in different color spaces, one in RGB and the other in YCbCr color space. The proposed approach achieves high performance gain when compared to a set of baselines, and also achieves higher robustness and generalizability than the baselines. The features of the proposed model when visualized are seen to obtain higher separability for the classes than the input image features and the baseline features. This work also studies the attention map visualizations of the networks of the fused model and observes that the proposed methodology can capture more image information relevant to the forensic task of classifying natural and generated images.

arxiv情報

著者 Manjary P Gangan,Anoop Kadan,Lajish V L
発行日 2023-08-14 17:11:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク