ExDDV: A New Dataset for Explainable Deepfake Detection in Video

要約

生成されたビデオのリアリズムと品質が増え続けると、自動ディープフェイク検出器にますます依存する必要があるディープファークコンテンツを見つけることはますます難しくなります。
ただし、Deepfake検出器もエラーを発生しやすく、その決定は説明できず、人間はディープフェイクベースの詐欺や誤報に対して脆弱です。
この目的のために、ビデオで説明可能なディープフェイク検出のための最初のデータセットとベンチマークであるEXDDVを紹介します。
EXDDVは、テキストの説明(アーティファクトを説明するために)とクリック(アーティファクトを指摘するため)で手動で注釈が付けられた約5.4kの実際とディープファークのビデオで構成されています。
EXDDVで多くのビジョン言語モデルを評価し、さまざまな微調整およびコンテキスト内学習戦略で実験を行います。
私たちの結果は、テキストとクリックの監督が両方とも、観察されたアーティファクトをローカライズして説明できるDeepfakeビデオの堅牢な説明可能なモデルを開発するために必要であることを示しています。
結果を再現するための新しいデータセットとコードは、https://github.com/vladhondru25/exddvで入手できます。

要約(オリジナル)

The ever growing realism and quality of generated videos makes it increasingly harder for humans to spot deepfake content, who need to rely more and more on automatic deepfake detectors. However, deepfake detectors are also prone to errors, and their decisions are not explainable, leaving humans vulnerable to deepfake-based fraud and misinformation. To this end, we introduce ExDDV, the first dataset and benchmark for Explainable Deepfake Detection in Video. ExDDV comprises around 5.4K real and deepfake videos that are manually annotated with text descriptions (to explain the artifacts) and clicks (to point out the artifacts). We evaluate a number of vision-language models on ExDDV, performing experiments with various fine-tuning and in-context learning strategies. Our results show that text and click supervision are both required to develop robust explainable models for deepfake videos, which are able to localize and describe the observed artifacts. Our novel dataset and code to reproduce the results are available at https://github.com/vladhondru25/ExDDV.

arxiv情報

著者 Vlad Hondru,Eduard Hogea,Darian Onchis,Radu Tudor Ionescu
発行日 2025-03-18 16:55:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク