A Multimodal Framework for Deepfake Detection

要約

ディープフェイク技術の急速な進歩は、デジタルメディアの完全性に重大な脅威をもたらしている。ディープフェイクとは、AIを用いて作成された合成メディアで、説得力を持って動画や音声を改変し、現実を欺くことができる。これは誤報や詐欺のリスクを生み、個人のプライバシーやセキュリティに深刻な影響を与える。私たちの研究は、視覚と聴覚の両方の要素をターゲットにした革新的なマルチモーダル・アプローチを通じて、ディープフェイクという重大な問題に取り組んでいます。この包括的な戦略は、人間の知覚がメディアコンテンツの完全な理解を形成するために、複数の感覚入力、特に視覚情報と聴覚情報を統合することを認識するものである。視覚分析については、高度な特徴抽出技術を採用したモデルを開発し、9つの異なる顔の特徴を抽出した後、様々な機械学習およびディープラーニングモデルを適用した。聴覚分析では、特徴抽出のためにメルスペクトログラム分析を活用し、様々な機械学習とディープラーニングモデルを適用する。複合的な分析を実現するために、オリジナルのデータセットに含まれる本物の音声とディープフェイクの音声をテスト目的で入れ替え、バランスの取れたサンプルを確保した。ビデオとオーディオの分類のために提案したモデル、すなわち人工ニューラルネットワークとVGG19を使用し、どちらかのコンポーネントがディープフェイクと識別された場合、サンプル全体がディープフェイクとして分類される。我々のマルチモーダルフレームワークは、視覚と聴覚の分析を組み合わせ、94%の精度をもたらした。

要約(オリジナル)

The rapid advancement of deepfake technology poses a significant threat to digital media integrity. Deepfakes, synthetic media created using AI, can convincingly alter videos and audio to misrepresent reality. This creates risks of misinformation, fraud, and severe implications for personal privacy and security. Our research addresses the critical issue of deepfakes through an innovative multimodal approach, targeting both visual and auditory elements. This comprehensive strategy recognizes that human perception integrates multiple sensory inputs, particularly visual and auditory information, to form a complete understanding of media content. For visual analysis, a model that employs advanced feature extraction techniques was developed, extracting nine distinct facial characteristics and then applying various machine learning and deep learning models. For auditory analysis, our model leverages mel-spectrogram analysis for feature extraction and then applies various machine learning and deep learningmodels. To achieve a combined analysis, real and deepfake audio in the original dataset were swapped for testing purposes and ensured balanced samples. Using our proposed models for video and audio classification i.e. Artificial Neural Network and VGG19, the overall sample is classified as deepfake if either component is identified as such. Our multimodal framework combines visual and auditory analyses, yielding an accuracy of 94%.

arxiv情報

著者 Kashish Gandhi,Prutha Kulkarni,Taran Shah,Piyush Chaudhari,Meera Narvekar,Kranti Ghag
発行日 2024-10-04 14:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.LO パーマリンク