Self-Supervised Graph Transformer for Deepfake Detection

要約

ディープフェイクの検出方法は、分布内のデータセットでトレーニングとテストが行​​われる特定のデータセット内の偽造の認識において有望な結果を示しています。
ただし、目に見えないサンプルを提示すると、パフォーマンスが大幅に低下します。
その結果、信頼性の高いディープフェイク検出システムは、一般化可能な検出パフォーマンスを保証するために、偽造の種類、外観、品質に影響されないようにする必要があります。
データセット間の一般化を強化するためのさまざまな試みにもかかわらず、特にビデオ圧縮やブラーなどの一般的な後処理の摂動に対してテストする場合、この問題は依然として困難です。
したがって、この研究では、優れた一般化能力を提供し、一般的な破損に耐え、機能の説明可能性を可能にする自己教師あり事前トレーニング モデルを活用したディープフェイク検出フレームワークを導入します。
このフレームワークは 3 つの主要なコンポーネントで構成されます。1 つは、自己教師あり対比学習手法によって事前トレーニングされたビジョン Transformer アーキテクチャに基づく特徴抽出器、Transformer 弁別器と結合したグラフ畳み込みネットワーク、およびグラフ Transformer 関連性マップであり、
操作された領域を示し、モデルの決定をさらに説明します。
提案されたフレームワークの有効性を評価するために、データ内分布パフォーマンス、クロスデータセット、クロス操作一般化、一般的なポストプロダクション摂動に対するロバスト性など、いくつかの挑戦的な実験が行われます。
達成された結果は、提案されたディープフェイク検出フレームワークの顕著な有効性を示しており、現在の最先端のアプローチを上回っています。

要約(オリジナル)

Deepfake detection methods have shown promising results in recognizing forgeries within a given dataset, where training and testing take place on the in-distribution dataset. However, their performance deteriorates significantly when presented with unseen samples. As a result, a reliable deepfake detection system must remain impartial to forgery types, appearance, and quality for guaranteed generalizable detection performance. Despite various attempts to enhance cross-dataset generalization, the problem remains challenging, particularly when testing against common post-processing perturbations, such as video compression or blur. Hence, this study introduces a deepfake detection framework, leveraging a self-supervised pre-training model that delivers exceptional generalization ability, withstanding common corruptions and enabling feature explainability. The framework comprises three key components: a feature extractor based on vision Transformer architecture that is pre-trained via self-supervised contrastive learning methodology, a graph convolution network coupled with a Transformer discriminator, and a graph Transformer relevancy map that provides a better understanding of manipulated regions and further explains the model’s decision. To assess the effectiveness of the proposed framework, several challenging experiments are conducted, including in-data distribution performance, cross-dataset, cross-manipulation generalization, and robustness against common post-production perturbations. The results achieved demonstrate the remarkable effectiveness of the proposed deepfake detection framework, surpassing the current state-of-the-art approaches.

arxiv情報

著者 Aminollah Khormali,Jiann-Shiun Yuan
発行日 2023-07-27 17:22:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク