FakeOut: Leveraging Out-of-domain Self-supervision for Multi-modal Video Deepfake Detection

要約

近年、映像の合成方法が急速に進歩し、合成人間を簡単に作成できるようになりました。
これは、特にソーシャル メディアの時代に問題を引き起こします。人間が話している合成ビデオを使用して、説得力のある方法で誤った情報を広めることができるからです。
したがって、トレーニング中には見ら​​れない偽造技術を検出できる、正確で堅牢なディープフェイク検出方法が緊急に必要とされています。
この作業では、ビデオディープフェイクドメインに適応した、自己監視型の方法でトレーニングされたマルチモーダルのドメイン外バックボーンを活用することで、これを実行できるかどうかを調べます。
FakeOut を提案します。
事前トレーニング段階と適応段階の両方でマルチモーダル データに依存する新しいアプローチ。
さまざまな種類のディープフェイク、特にトレーニング中には見ら​​れなかった操作を検出する際の FakeOut の有効性と堅牢性を示します。
私たちの方法は、クロスマニピュレーションとクロスデータセットの一般化において最先端の結果を達成します。
この研究は、おそらく驚くべきことに、ドメイン外のビデオ (つまり、人間が話していないビデオ) でのトレーニングが、より優れたディープフェイク検出システムにつながる可能性があることを示しています。
コードは GitHub で入手できます。

要約(オリジナル)

Video synthesis methods rapidly improved in recent years, allowing easy creation of synthetic humans. This poses a problem, especially in the era of social media, as synthetic videos of speaking humans can be used to spread misinformation in a convincing manner. Thus, there is a pressing need for accurate and robust deepfake detection methods, that can detect forgery techniques not seen during training. In this work, we explore whether this can be done by leveraging a multi-modal, out-of-domain backbone trained in a self-supervised manner, adapted to the video deepfake domain. We propose FakeOut; a novel approach that relies on multi-modal data throughout both the pre-training phase and the adaption phase. We demonstrate the efficacy and robustness of FakeOut in detecting various types of deepfakes, especially manipulations which were not seen during training. Our method achieves state-of-the-art results in cross-manipulation and cross-dataset generalization. This study shows that, perhaps surprisingly, training on out-of-domain videos (i.e., videos with no speaking humans), can lead to better deepfake detection systems. Code is available on GitHub.

arxiv情報

著者 Gil Knafo,Ohad Fried
発行日 2022-12-01 18:56:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク