IML-ViT: Image Manipulation Localization by Vision Transformer

要約

高度な画像改ざん技術はマルチメディアの信頼性にますます挑戦しており、画像操作ローカリゼーション (IML) の開発につながっています。
しかし、優れた IML モデルとは何でしょうか?
答えは、アーティファクトをキャプチャする方法にあります。
アーティファクトを悪用するには、モデルが操作された領域と本物の領域の間の非意味的な不一致を抽出する必要があり、これら 2 つの領域間の違いを明示的に比較する必要があります。
自己注意メカニズムを備えた場合、当然、Transformer が最適な候補になります。
さらに、アーティファクトは画像解像度の影響を受けやすく、マルチスケール フィーチャの下で増幅され、操作境界で大量になります。
したがって、前者の質問に対する答えは、高解像度能力、マルチスケール特徴抽出能力、および操作エッジ監視を備えた ViT を構築することとして定式化されます。
私たちは、このシンプルだが効果的な ViT パラダイムを IML-ViT と呼びます。これは、IML の新しいベンチマークとなる大きな可能性を秘めています。
5 つのベンチマーク データセットに対する広範な実験により、私たちのモデルが最先端の操作位置特定手法よりも優れていることが検証されました。
コードとモデルは \url{https://github.com/SunnyHaze/IML-ViT} で入手できます。

要約(オリジナル)

Advanced image tampering techniques are increasingly challenging the trustworthiness of multimedia, leading to the development of Image Manipulation Localization (IML). But what makes a good IML model? The answer lies in the way to capture artifacts. Exploiting artifacts requires the model to extract non-semantic discrepancies between the manipulated and authentic regions, which needs to compare differences between these two areas explicitly. With the self-attention mechanism, naturally, the Transformer is the best candidate. Besides, artifacts are sensitive to image resolution, amplified under multi-scale features, and massive at the manipulation border. Therefore, we formulate the answer to the former question as building a ViT with high-resolution capacity, multi-scale feature extraction capability, and manipulation edge supervision. We term this simple but effective ViT paradigm as the IML-ViT, which has great potential to become a new benchmark for IML. Extensive experiments on five benchmark datasets verified our model outperforms the state-of-the-art manipulation localization methods. Code and models are available at \url{https://github.com/SunnyHaze/IML-ViT}

arxiv情報

著者 Xiaochen Ma,Bo Du,Xianggen Liu,Ahmed Y. Al Hammadi,Jizhe Zhou
発行日 2023-07-27 13:49:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク