Joint Learning of Deep Texture and High-Frequency Features for Computer-Generated Image Detection

要約

デジタル画像の真正性やオリジナリティを検証するために、CG画像と自然写真画像を区別することは非常に重要である。しかし、近年の最先端の生成手法により、CG画像でも高品質な合成が可能となり、この困難な課題をさらに困難なものにしている。この問題を解決するために、CG画像検出のための深いテクスチャと高周波の特徴量を用いた共同学習戦略を提案する。まず、CG画像とPG画像の異なる取得過程を定式化し、深く分析する。画像取得における複数の異なるモジュールが、画像における畳み込みニューラルネットワーク(CNN)ベースのレンダリングに異なる感度の不整合をもたらすという知見に基づき、テクスチャ差の強調と識別的テクスチャ表現のためのディープテクスチャレンダリングモジュールを提案する。具体的には、入力画像の異なる領域のテクスチャを復元するためのアフィン変換演算をガイドするために、意味的なセグメンテーションマップを生成する。次に、原画とレンダリング画像の高周波成分の組み合わせは、注意メカニズムを備えた多枝ニューラルネットワークに供給され、中間特徴を洗練させ、空間次元とチャンネル次元のトレース探索をそれぞれ容易にする。2つの公開データセットと、より現実的で多様な画像を用いて新たに構築したデータセットに対する広範な実験により、提案手法はこの分野における既存の手法を明確なマージンで上回ることが示された。また、後処理やGenerative adversarial network(GAN)により生成された画像に対する提案手法の検出耐性と一般化能力を示す結果も得られている。

要約(オリジナル)

Distinguishing between computer-generated (CG) and natural photographic (PG) images is of great importance to verify the authenticity and originality of digital images. However, the recent cutting-edge generation methods enable high qualities of synthesis in CG images, which makes this challenging task even trickier. To address this issue, a joint learning strategy with deep texture and high-frequency features for CG image detection is proposed. We first formulate and deeply analyze the different acquisition processes of CG and PG images. Based on the finding that multiple different modules in image acquisition will lead to different sensitivity inconsistencies to the convolutional neural network (CNN)-based rendering in images, we propose a deep texture rendering module for texture difference enhancement and discriminative texture representation. Specifically, the semantic segmentation map is generated to guide the affine transformation operation, which is used to recover the texture in different regions of the input image. Then, the combination of the original image and the high-frequency components of the original and rendered images are fed into a multi-branch neural network equipped with attention mechanisms, which refines intermediate features and facilitates trace exploration in spatial and channel dimensions respectively. Extensive experiments on two public datasets and a newly constructed dataset with more realistic and diverse images show that the proposed approach outperforms existing methods in the field by a clear margin. Besides, results also demonstrate the detection robustness and generalization ability of the proposed approach to postprocessing operations and generative adversarial network (GAN) generated images.

arxiv情報

著者 Qiang Xu,Shan Jia,Xinghao Jiang,Tanfeng Sun,Zhe Wang,Hong Yan
発行日 2022-09-07 17:30:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク