Improving Video Deepfake Detection: A DCT-Based Approach with Patch-Level Analysis

要約

ディープフェイクという用語は、生成モデルを使用して合成的に変更された、または最初から作成されたマルチメディア コンテンツすべてを指します。
この現象は、操作されたコンテンツを実際のコンテンツと区別できないようにレンダリングできる、ますます正確かつ効率的なアーキテクチャの使用により、広く普及しています。
この強力なテクノロジーの不正使用と戦うためには、合成コンテンツと本物のコンテンツを区別できるアルゴリズムを開発する必要があります。
この研究では、フォレンジックの観点から高速で説明可能な方法を作成するという主な目標に焦点を当て、デジタルビデオ内のディープフェイクを検出するための新しいアルゴリズムを紹介します。
この目標を達成するために、文献に記載されているアプローチよりも高速な計算と分析を提供するために I フレームが抽出されました。
さらに、個々のビデオ フレーム内で最も特徴的な領域を特定するために、フレーム全体、背景、顔、目、鼻、口、顔のフレームが個別に分析されました。
離散コサイン変換 (DCT) から、AC 係数からベータ成分が抽出され、標準分類器 (k-NN、SVM など) への入力として使用され、タスクを解決するために最も識別力のある周波数を特定しました。
質問。
Faceforensics++ および Celeb-DF (v2) データセットで得られた実験結果は、目と口の領域が最も識別力があり、フレーム全体の分析よりも高い信頼性でビデオの性質を判断できることを示しています。
この研究で提案された方法は分析的で高速であり、多くの計算能力を必要としません。

要約(オリジナル)

The term deepfake refers to all those multimedia contents that were synthetically altered or created from scratch through the use of generative models. This phenomenon has become widespread due to the use of increasingly accurate and efficient architectures capable of rendering manipulated content indistinguishable from real content. In order to fight the illicit use of this powerful technology, it has become necessary to develop algorithms able to distinguish synthetic content from real ones. In this study, a new algorithm for the detection of deepfakes in digital videos is presented, focusing on the main goal of creating a fast and explainable method from a forensic perspective. To achieve this goal, the I-frames were extracted in order to provide faster computation and analysis than approaches described in literature. In addition, to identify the most discriminating regions within individual video frames, the entire frame, background, face, eyes, nose, mouth, and face frame were analyzed separately. From the Discrete Cosine Transform (DCT), the Beta components were extracted from the AC coefficients and used as input to standard classifiers (e.g., k-NN, SVM, and others) in order to identify those frequencies most discriminative for solving the task in question. Experimental results obtained on the Faceforensics++ and Celeb-DF (v2) datasets show that the eye and mouth regions are those most discriminative and able to determine the nature of the video with greater reliability than the analysis of the whole frame. The method proposed in this study is analytical, fast and does not require much computational power.

arxiv情報

著者 Luca Guarnera,Salvatore Manganello,Sebastiano Battiato
発行日 2023-10-17 12:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク