要約
デジタル画像フォレンジックは、画像の認証と操作の位置特定において重要な役割を果たします。
ディープ ニューラル ネットワークによる進歩にも関わらず、既存の偽造位置特定手法は、目に見えないデータセットや摂動された画像に導入すると限界が現れます (つまり、現実世界のアプリケーションに対する一般化と堅牢性の欠如)。
これらの問題を回避し、画像の完全性を支援するために、この論文では、ピクセル不一致アーティファクトの分析を通じて、一般化された堅牢な操作位置特定モデルを紹介します。
この理論的根拠は、ほとんどのイメージ シグナル プロセッサ (ISP) にはデモザイク プロセスが含まれており、これにより元のイメージにピクセル相関が導入されるという観察に基づいています。
さらに、スプライシング、コピーと移動、修復などの操作操作は、そのようなピクセルの規則性に直接影響します。
したがって、最初に入力画像をいくつかのブロックに分割し、マスクされた自己注意メカニズムを設計して、入力画像内のグローバルなピクセル依存関係をモデル化します。
同時に、別のローカル ピクセル依存ストリームを最適化し、入力偽造画像内のローカル操作の手がかりをマイニングします。
さらに、2 つのストリームの機能を結合する新しい Learning-to-Weight モジュール (LWM) を設計し、それによって最終的な偽造位置特定パフォーマンスを強化します。
トレーニング プロセスを改善するために、私たちは新しいピクセル不一致データ拡張 (PIDA) 戦略を提案し、セマンティック偽造の痕跡をマイニングするのではなく、固有のピクセル レベルのアーティファクトをキャプチャすることに重点を置くようにモデルを駆動します。
この研究では、12 のデータセットにわたる 15 の代表的な検出モデルを統合した包括的なベンチマークを確立します。
広範な実験により、私たちの方法が固有のピクセル不一致偽造指紋の抽出に成功し、画像操作の位置特定において最先端の一般化と堅牢性のパフォーマンスを達成することが示されました。
要約(オリジナル)
Digital image forensics plays a crucial role in image authentication and manipulation localization. Despite the progress powered by deep neural networks, existing forgery localization methodologies exhibit limitations when deployed to unseen datasets and perturbed images (i.e., lack of generalization and robustness to real-world applications). To circumvent these problems and aid image integrity, this paper presents a generalized and robust manipulation localization model through the analysis of pixel inconsistency artifacts. The rationale is grounded on the observation that most image signal processors (ISP) involve the demosaicing process, which introduces pixel correlations in pristine images. Moreover, manipulating operations, including splicing, copy-move, and inpainting, directly affect such pixel regularity. We, therefore, first split the input image into several blocks and design masked self-attention mechanisms to model the global pixel dependency in input images. Simultaneously, we optimize another local pixel dependency stream to mine local manipulation clues within input forgery images. In addition, we design novel Learning-to-Weight Modules (LWM) to combine features from the two streams, thereby enhancing the final forgery localization performance. To improve the training process, we propose a novel Pixel-Inconsistency Data Augmentation (PIDA) strategy, driving the model to focus on capturing inherent pixel-level artifacts instead of mining semantic forgery traces. This work establishes a comprehensive benchmark integrating 15 representative detection models across 12 datasets. Extensive experiments show that our method successfully extracts inherent pixel-inconsistency forgery fingerprints and achieve state-of-the-art generalization and robustness performances in image manipulation localization.
arxiv情報
著者 | Chenqi Kong,Anwei Luo,Shiqi Wang,Haoliang Li,Anderson Rocha,Alex C. Kot |
発行日 | 2024-11-19 13:34:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google