Classifying Deepfakes Using Swin Transformers

要約

ディープフェイクテクノロジーの急増は、デジタルメディアの信頼性と信頼性に大きな課題をもたらし、堅牢な検出方法の開発を必要とします。
この研究では、ディープフェイク画像の検出と分類において、自己関節のためにシフトされたウィンドウを活用する最先端のアーキテクチャであるSwin Transformersの適用を調査します。
Yonsei UniversityのComputational Intelligence Photography LabによるReal and Fake Face検出データセットを使用して、Swin-ResnetやSwin-Knnなどのスウィントランスとハイブリッドモデルを評価し、微妙な操作アーティファクトを特定する能力に焦点を当てています。
我々の結果は、SWINトランスがVGG16、ResNet18、AlexNetを含む従来のCNNベースのアーキテクチャを上回り、71.29%のテスト精度を達成したことを示しています。
さらに、ハイブリッドモデルの設計に関する洞察を提示し、ディープフェイク検出における変圧器とCNNベースのアプローチの補完的な強度を強調します。
この研究では、画像ベースの操作検出の精度と一般化を改善するためのトランスベースのアーキテクチャの可能性を強調し、ディープフェイクの脅威に対するより効果的な対策への道を開いています。

要約(オリジナル)

The proliferation of deepfake technology poses significant challenges to the authenticity and trustworthiness of digital media, necessitating the development of robust detection methods. This study explores the application of Swin Transformers, a state-of-the-art architecture leveraging shifted windows for self-attention, in detecting and classifying deepfake images. Using the Real and Fake Face Detection dataset by Yonsei University’s Computational Intelligence Photography Lab, we evaluate the Swin Transformer and hybrid models such as Swin-ResNet and Swin-KNN, focusing on their ability to identify subtle manipulation artifacts. Our results demonstrate that the Swin Transformer outperforms conventional CNN-based architectures, including VGG16, ResNet18, and AlexNet, achieving a test accuracy of 71.29%. Additionally, we present insights into hybrid model design, highlighting the complementary strengths of transformer and CNN-based approaches in deepfake detection. This study underscores the potential of transformer-based architectures for improving accuracy and generalizability in image-based manipulation detection, paving the way for more effective countermeasures against deepfake threats.

arxiv情報

著者 Aprille J. Xi,Eason Chen
発行日 2025-01-31 16:16:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク