要約
ディープフェイクの生成方法は急速に進化しており、偽のメディアを検出するのが難しく、深刻な社会的懸念を提起しています。
ほとんどのDeepFake検出とデータセット作成の研究は、単一言語の内容に焦点を当てており、多くの場合、複数の言語が同じ談話内で混合される多言語とコードスイッチのスピーチの課題を見落としています。
特にアラビア語と英語の間でコードスイッチングはアラブ世界で一般的であり、デジタル通信で広く使用されています。
この言語の混合は、主に単一言語データで訓練されたモデルを混同することができるため、ディープファーセクションのための特別な課題をもたらします。
これに対処するために、\ TextBF {Arenav}を紹介します。\ TextBf {Arenav}、アラビア語と英語の視覚的なディープフェイクデータセットである最初の大規模な音声視聴覚データセットを紹介します。
\ textBf {387Kビデオと765時間以上の実際のビデオと偽のビデオが含まれています}。
データセットは、4つのテキスト対スピーチと2つのリップシンクモデルを統合する新しいパイプラインを使用して生成され、多言語マルチモーダルディープフェイク検出の包括的な分析を可能にします。
既存の単一言語および多言語データセット、最先端のディープフェイク検出モデル、および人間の評価に対してデータセットをベンチマークし、ディープフェイクリサーチを進める可能性を強調しています。
データセットにアクセスできます\ href {https://huggingface.co/datasets/kartik060702/arenav-full} {ここで}。
要約(オリジナル)
Deepfake generation methods are evolving fast, making fake media harder to detect and raising serious societal concerns. Most deepfake detection and dataset creation research focuses on monolingual content, often overlooking the challenges of multilingual and code-switched speech, where multiple languages are mixed within the same discourse. Code-switching, especially between Arabic and English, is common in the Arab world and is widely used in digital communication. This linguistic mixing poses extra challenges for deepfake detection, as it can confuse models trained mostly on monolingual data. To address this, we introduce \textbf{ArEnAV}, the first large-scale Arabic-English audio-visual deepfake dataset featuring intra-utterance code-switching, dialectal variation, and monolingual Arabic content. It \textbf{contains 387k videos and over 765 hours of real and fake videos}. Our dataset is generated using a novel pipeline integrating four Text-To-Speech and two lip-sync models, enabling comprehensive analysis of multilingual multimodal deepfake detection. We benchmark our dataset against existing monolingual and multilingual datasets, state-of-the-art deepfake detection models, and a human evaluation, highlighting its potential to advance deepfake research. The dataset can be accessed \href{https://huggingface.co/datasets/kartik060702/ArEnAV-Full}{here}.
arxiv情報
著者 | Kartik Kuckreja,Parul Gupta,Injy Hamed,Thamar Solorio,Muhammad Haris Khan,Abhinav Dhall |
発行日 | 2025-05-28 16:54:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google