Hybrid Transformer Network for Deepfake Detection

要約

ディープフェイクメディアは、専門的な知識を必要とせず、リアルなディープフェイク動画/画像を生成できるツールやモバイルアプリが簡単に入手できることから、現在、広く普及しつつあります。近い将来、この分野の技術がさらに進歩すれば、ディープフェイクメディアの量と質はさらに高まり、ディープフェイクメディアは誤った/誤った情報を広めるための新しい実用的なツールとなる可能性が高いと予想されます。このような背景から、ディープフェイクメディアの検知ツールは必要不可欠となってきている。本研究では、ディープフェイクビデオ検出のために、早期特徴量融合戦略を利用した新しいハイブリッドトランスフォーマーネットワークを提案する。本モデルでは、特徴抽出器として2種類のCNNネットワーク、すなわち、(1)XceptionNetと(2)EfficientNet-B4を用いる。両特徴抽出器と変換器をFaceForensics++, DFDCベンチマークを用いてエンドツーエンドで学習させる。我々のモデルは、比較的単純なアーキテクチャでありながら、FaceForensics++およびDFDCベンチマークで評価した場合、より高度な他の最先端アプローチと同等の結果を達成することができます。さらに、我々は、新しい顔の切り出し補強とランダムな切り出し補強を提案します。提案する拡張機能は、我々のモデルの検出性能を向上させ、オーバーフィッティングを減少させることを示す。さらに、本モデルが非常に少ないデータ量から学習できることを示す。

要約(オリジナル)

Deepfake media is becoming widespread nowadays because of the easily available tools and mobile apps which can generate realistic looking deepfake videos/images without requiring any technical knowledge. With further advances in this field of technology in the near future, the quantity and quality of deepfake media is also expected to flourish, while making deepfake media a likely new practical tool to spread mis/disinformation. Because of these concerns, the deepfake media detection tools are becoming a necessity. In this study, we propose a novel hybrid transformer network utilizing early feature fusion strategy for deepfake video detection. Our model employs two different CNN networks, i.e., (1) XceptionNet and (2) EfficientNet-B4 as feature extractors. We train both feature extractors along with the transformer in an end-to-end manner on FaceForensics++, DFDC benchmarks. Our model, while having relatively straightforward architecture, achieves comparable results to other more advanced state-of-the-art approaches when evaluated on FaceForensics++ and DFDC benchmarks. Besides this, we also propose novel face cut-out augmentations, as well as random cut-out augmentations. We show that the proposed augmentations improve the detection performance of our model and reduce overfitting. In addition to that, we show that our model is capable of learning from considerably small amount of data.

arxiv情報

著者 Sohail Ahmed Khan,Duc-Tien Dang-Nguyen
発行日 2022-08-11 13:30:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク