Perceptual MAE for Image Manipulation Localization: A High-level Vision Learner Focusing on Low-level Features

要約

今日、マルチメディアフォレンジックは、マルチメディア生成テクノロジーの急速な進歩により、前例のない課題に直面しており、それにより、真実の追求において画像操作ローカリゼーション (IML) が重要になっています。
IML の鍵は、ピクセル レベルの特徴で明らかな、改ざんされた領域と本物の領域の間のアーチファクトや不一致を明らかにすることにあります。
したがって、既存の研究では、IML を低レベルの視覚タスクとして扱い、画像の RGB ノイズ、エッジ信号、高周波特徴などのピクセルレベルの特徴を作成することによって改ざんされたマスクを割り当てることに重点を置いています。
ただし、実際には、改ざんはオブジェクト レベルで発生するのが一般的であり、オブジェクトのクラスが異なれば、改ざんのターゲットになる可能性も異なります。
したがって、ピクセルレベルの特徴に加えて、オブジェクトのセマンティクスも改ざん領域を特定するために重要です。
これには、画像全体の意味を理解するための IML モデルが必要です。
このペーパーでは、IML タスクを、低レベルの機能から大きな恩恵を受ける高レベルのビジョン タスクとして再定式化します。
このような解釈に基づいて、我々は、高解像度入力と知覚損失監視モジュールを組み込むことによってマスクオートエンコーダ(MAE)を強化する方法を提案します。これは、知覚MAE(PMAE)と呼ばれます。
MAE はオブジェクトのセマンティクスを見事に理解していることを実証しましたが、PMAE は提案された拡張機能によって低レベルのセマンティクスを補うこともできます。
広範な実験によって証明されたように、このパラダイムは IML タスクの低レベル機能と高レベル機能を効果的に統合し、5 つの公的に利用可能なデータセットすべてで最先端の改ざん位置特定手法を上回ります。

要約(オリジナル)

Nowadays, multimedia forensics faces unprecedented challenges due to the rapid advancement of multimedia generation technology thereby making Image Manipulation Localization (IML) crucial in the pursuit of truth. The key to IML lies in revealing the artifacts or inconsistencies between the tampered and authentic areas, which are evident under pixel-level features. Consequently, existing studies treat IML as a low-level vision task, focusing on allocating tampered masks by crafting pixel-level features such as image RGB noises, edge signals, or high-frequency features. However, in practice, tampering commonly occurs at the object level, and different classes of objects have varying likelihoods of becoming targets of tampering. Therefore, object semantics are also vital in identifying the tampered areas in addition to pixel-level features. This necessitates IML models to carry out a semantic understanding of the entire image. In this paper, we reformulate the IML task as a high-level vision task that greatly benefits from low-level features. Based on such an interpretation, we propose a method to enhance the Masked Autoencoder (MAE) by incorporating high-resolution inputs and a perceptual loss supervision module, which is termed Perceptual MAE (PMAE). While MAE has demonstrated an impressive understanding of object semantics, PMAE can also compensate for low-level semantics with our proposed enhancements. Evidenced by extensive experiments, this paradigm effectively unites the low-level and high-level features of the IML task and outperforms state-of-the-art tampering localization methods on all five publicly available datasets.

arxiv情報

著者 Xiaochen Ma,Jizhe Zhou,Xiong Xu,Zhuohang Jiang,Chi-Man Pun
発行日 2023-10-10 11:14:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク