要約
口パクディープフェイクはデジタル処理されたビデオで、AI モデルを使用して人の唇の動きが説得力を持って作成され、変更された音声またはまったく新しい音声と一致します。
口パクディープフェイクは、アーティファクトが唇の領域に限定されており、識別することがより難しいため、危険なタイプのディープフェイクです。
この論文では、口領域の時間的不一致を識別することによる口同期ディープフェイク検出のための、口 INConsistency に基づく口同期検出 (LIPINC) という新しいアプローチについて説明します。
これらの不一致は、隣接するフレームやビデオ全体で見られます。
私たちのモデルはこれらの不規則性をうまく捕捉でき、いくつかのベンチマークディープフェイクデータセットで最先端の手法を上回ります。
要約(オリジナル)
A lip-syncing deepfake is a digitally manipulated video in which a person’s lip movements are created convincingly using AI models to match altered or entirely new audio. Lip-syncing deepfakes are a dangerous type of deepfakes as the artifacts are limited to the lip region and more difficult to discern. In this paper, we describe a novel approach, LIP-syncing detection based on mouth INConsistency (LIPINC), for lip-syncing deepfake detection by identifying temporal inconsistencies in the mouth region. These inconsistencies are seen in the adjacent frames and throughout the video. Our model can successfully capture these irregularities and outperforms the state-of-the-art methods on several benchmark deepfake datasets.
arxiv情報
著者 | Soumyya Kanti Datta,Shan Jia,Siwei Lyu |
発行日 | 2024-01-18 16:35:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google