PDC-ViT : Source Camera Identification using Pixel Difference Convolution and Vision Transformer

要約

ソースカメラの識別は、テロ、暴力、その他の犯罪行為などの重要なケースを含む事件のロックを解除するための重要なソリューションとして浮上しています。
画像/ビデオの起源を追跡する能力は、証拠を収集し、イベントのタイムラインを構築するのに役立ちます。
さらに、特定のデバイスの所有者を特定すると、スマートフォンデバイスが関与している犯罪捜査で検索領域を狭めます。
このホワイトペーパーでは、ソースカメラの識別のための新しいピクセルベースの方法、ピクセルの差分畳み込み(PDC)とビジョントランスネットワーク(VIT)、および名前付きPDC-vitを統合することを提案します。
一方、PDCは、Angular PDC(APDC)および放射状PDC(RPDC)を活用することにより、特徴抽出のバックボーンとして機能します。
これらの手法は、異なるソースカメラを区別するために重要なピクセル情報の微妙なバリエーションをキャプチャする機能を高めます。
方法論の2番目の部分は、ビジョントランスネットワークに基づいた分類に焦点を当てています。
分類ネットワークをトレーニングするために画像パッチを直接利用する従来の方法とは異なり、提案されたアプローチは、PDC機能をVision Transformerネットワークに一意に入力します。
PDC-vitアプローチの有効性を実証するために、さまざまな画像コンテンツとビデオシーンを含む5つの異なるデータセットで評価されています。
この方法は、最先端のソースカメラ識別方法とも比較されています。
実験結果は、競合他社と比較した場合の精度と堅牢性の観点から、提案されたシステムの有効性と優位性を示しています。
たとえば、提案されたPDC-vitは、ビジョンデータセット、ダックスデータセット、ソクラテスデータセット、Qufvdデータセットをそれぞれ使用して、94.30%、84%、94.22%、92.29%の精度を達成しました。

要約(オリジナル)

Source camera identification has emerged as a vital solution to unlock incidents involving critical cases like terrorism, violence, and other criminal activities. The ability to trace the origin of an image/video can aid law enforcement agencies in gathering evidence and constructing the timeline of events. Moreover, identifying the owner of a certain device narrows down the area of search in a criminal investigation where smartphone devices are involved. This paper proposes a new pixel-based method for source camera identification, integrating Pixel Difference Convolution (PDC) with a Vision Transformer network (ViT), and named PDC-ViT. While the PDC acts as the backbone for feature extraction by exploiting Angular PDC (APDC) and Radial PDC (RPDC). These techniques enhance the capability to capture subtle variations in pixel information, which are crucial for distinguishing between different source cameras. The second part of the methodology focuses on classification, which is based on a Vision Transformer network. Unlike traditional methods that utilize image patches directly for training the classification network, the proposed approach uniquely inputs PDC features into the Vision Transformer network. To demonstrate the effectiveness of the PDC-ViT approach, it has been assessed on five different datasets, which include various image contents and video scenes. The method has also been compared with state-of-the-art source camera identification methods. Experimental results demonstrate the effectiveness and superiority of the proposed system in terms of accuracy and robustness when compared to its competitors. For example, our proposed PDC-ViT has achieved an accuracy of 94.30%, 84%, 94.22% and 92.29% using the Vision dataset, Daxing dataset, Socrates dataset and QUFVD dataset, respectively.

arxiv情報

著者 Omar Elharrouss,Younes Akbari,Noor Almaadeed,Somaya Al-Maadeed,Fouad Khelifi,Ahmed Bouridane
発行日 2025-01-27 17:21:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク