要約
この論文では、堅牢なオーディオビジュアルディープフェイク検出モデルを開発するという課題に取り組みます。
実際の使用例では、新世代のアルゴリズムが継続的に出現していますが、検出方法の開発中にこれらのアルゴリズムに遭遇することはありません。
これには、メソッドの一般化能力が必要です。
さらに、検出方法の信頼性を確保するには、ビデオからのどの手がかりが偽物であることを示すかをモデルが解釈することが有益です。
これらの考慮事項に基づいて、表現レベルの正則化手法として 1 クラス学習を使用したマルチストリーム融合アプローチを提案します。
既存の FakeAVCeleb データセットを拡張および再分割して新しいベンチマークを作成し、オーディオビジュアルディープフェイク検出の一般化問題を研究します。
このベンチマークには、4 つのカテゴリのフェイク ビデオ (リアル オーディオ – フェイク ビジュアル、フェイク オーディオ – フェイク ビジュアル、フェイク オーディオ – リアル ビジュアル、および非同期ビデオ) が含まれています。
実験結果は、私たちのアプローチが以前のモデルを大幅に上回っていることを示しています。
さらに、私たちが提案するフレームワークは、モデルがどのモダリティを偽物である可能性が高いと識別するかを示す解釈可能性を提供します。
ソースコードは https://github.com/bok-bok/MSOC で公開されています。
要約(オリジナル)
This paper addresses the challenge of developing a robust audio-visual deepfake detection model. In practical use cases, new generation algorithms are continually emerging, and these algorithms are not encountered during the development of detection methods. This calls for the generalization ability of the method. Additionally, to ensure the credibility of detection methods, it is beneficial for the model to interpret which cues from the video indicate it is fake. Motivated by these considerations, we then propose a multi-stream fusion approach with one-class learning as a representation-level regularization technique. We study the generalization problem of audio-visual deepfake detection by creating a new benchmark by extending and re-splitting the existing FakeAVCeleb dataset. The benchmark contains four categories of fake videos (Real Audio-Fake Visual, Fake Audio-Fake Visual, Fake Audio-Real Visual, and Unsynchronized videos). The experimental results demonstrate that our approach surpasses the previous models by a large margin. Furthermore, our proposed framework offers interpretability, indicating which modality the model identifies as more likely to be fake. The source code is released at https://github.com/bok-bok/MSOC.
arxiv情報
著者 | Kyungbok Lee,You Zhang,Zhiyao Duan |
発行日 | 2024-08-19 13:14:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google