IML-ViT: Benchmarking Image Manipulation Localization by Vision Transformer

要約

高度な画像改ざん技術はマルチメディアの信頼性にますます挑戦しており、画像操作ローカリゼーション (IML) の開発につながっています。
しかし、優れた IML モデルとは何でしょうか?
答えは、アーティファクトをキャプチャする方法にあります。
アーティファクトを悪用するには、モデルが操作された領域と本物の領域の間の非意味的な不一致を抽出する必要があり、2 つの領域間の明示的な比較が必要になります。
自己注意メカニズムを使用すると、当然のことながら、Transformer はアーティファクトをキャプチャするためのより良い候補となるはずです。
ただし、データセットが限られているため、現時点ではベンチマークとして機能する IML の純粋な ViT ベースのアプローチはなく、CNN がタスク全体を支配しています。
それにもかかわらず、CNN は長距離および非セマンティック モデリングが弱いという問題に悩まされています。
このギャップを埋めるために、アーティファクトは画像解像度の影響を受けやすく、マルチスケールの特徴の下で増幅され、操作境界で大量になるという事実に基づいて、前者の質問に対する答えを、高解像度のマルチスケール機能を備えた ViT を構築するという形で定式化します。
– スケール特徴抽出機能、および少量のデータで収束できる操作エッジ監視。
私たちはこのシンプルだが効果的な ViT パラダイムを IML-ViT と呼びます。これは、IML の新しいベンチマークとなる大きな可能性を秘めています。
5 つのベンチマーク データセットに対する広範な実験により、私たちのモデルが最先端の操作位置特定手法よりも優れていることが検証されました。コードとモデルは \url{https://github.com/SunnyHaze/IML-ViT} で入手できます。

要約(オリジナル)

Advanced image tampering techniques are increasingly challenging the trustworthiness of multimedia, leading to the development of Image Manipulation Localization (IML). But what makes a good IML model? The answer lies in the way to capture artifacts. Exploiting artifacts requires the model to extract non-semantic discrepancies between manipulated and authentic regions, necessitating explicit comparisons between the two areas. With the self-attention mechanism, naturally, the Transformer should be a better candidate to capture artifacts. However, due to limited datasets, there is currently no pure ViT-based approach for IML to serve as a benchmark, and CNNs dominate the entire task. Nevertheless, CNNs suffer from weak long-range and non-semantic modeling. To bridge this gap, based on the fact that artifacts are sensitive to image resolution, amplified under multi-scale features, and massive at the manipulation border, we formulate the answer to the former question as building a ViT with high-resolution capacity, multi-scale feature extraction capability, and manipulation edge supervision that could converge with a small amount of data. We term this simple but effective ViT paradigm IML-ViT, which has significant potential to become a new benchmark for IML. Extensive experiments on five benchmark datasets verified our model outperforms the state-of-the-art manipulation localization methods.Code and models are available at \url{https://github.com/SunnyHaze/IML-ViT}.

arxiv情報

著者 Xiaochen Ma,Bo Du,Zhuohang Jiang,Ahmed Y. Al Hammadi,Jizhe Zhou
発行日 2023-08-31 13:25:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク