Deep Image Composition Meets Image Forgery

要約

画像偽造は長年研究されてきたテーマである。ディープラーニングがブレークスルーする以前は、偽造画像は学習を必要としない手作りの特徴を用いて検出されていた。このような従来の手法は、現実の画像操作よりもはるかに質の悪いデータセットでも満足のいく性能を発揮できなかった。ディープラーニングの進歩は、コンピュータビジョンの他の分野に影響を与えたのと同様に、画像偽造検出にも影響を与え、技術の現状を改善した。ディープラーニングモデルは、学習に大量のラベル付きデータを必要とする。画像偽造の場合、ピクセルレベルのラベル付きデータはモデルが学習する上で非常に重要な要素である。既存のデータセットには、十分なサイズ、リアリズム、ピクセルレベルのラベリングを同時に持つものはない。これは、高品質な画像の作成とラベリングに高いコストがかかるためである。画像編集の専門家がたった1枚の画像を操作するのに数時間かかることもある。このギャップを埋めるために、我々は画像偽造に非常に関連する画像合成技術を使用してデータ生成を自動化する。他の自動データ生成フレームワークとは異なり、我々は最先端の画像合成ディープラーニングモデルを使用し、実際の操作の品質に近いスプライス画像を生成する。最後に、生成されたデータセットをSOTA画像操作検出モデルでテストし、その予測性能が既存のデータセットと比較して低いこと、すなわち、検出がより困難な現実的な画像を生成することを示す。データセットは、https://github.com/99eren99/DIS25k。

要約(オリジナル)

Image forgery is a topic that has been studied for many years. Before the breakthrough of deep learning, forged images were detected using handcrafted features that did not require training. These traditional methods failed to perform satisfactorily even on datasets much worse in quality than real-life image manipulations. Advances in deep learning have impacted image forgery detection as much as they have impacted other areas of computer vision and have improved the state of the art. Deep learning models require large amounts of labeled data for training. In the case of image forgery, labeled data at the pixel level is a very important factor for the models to learn. None of the existing datasets have sufficient size, realism and pixel-level labeling at the same time. This is due to the high cost of producing and labeling quality images. It can take hours for an image editing expert to manipulate just one image. To bridge this gap, we automate data generation using image composition techniques that are very related to image forgery. Unlike other automated data generation frameworks, we use state of the art image composition deep learning models to generate spliced images close to the quality of real-life manipulations. Finally, we test the generated dataset on the SOTA image manipulation detection model and show that its prediction performance is lower compared to existing datasets, i.e. we produce realistic images that are more difficult to detect. Dataset will be available at https://github.com/99eren99/DIS25k .

arxiv情報

著者 Eren Tahir,Mert Bal
発行日 2024-04-03 17:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク