要約
近年の顔認証技術の進歩により、視覚的に追跡不可能なディープフェイク映像が生成されるようになり、悪意を持って利用される可能性が出てきました。そのため、研究者はディープフェイクの検出に専念してきました。これまでの研究では、ディープフェイクの手法間でうまく汎化するために、局所的な低レベルキューと時間情報の重要性が指摘されてきたが、後処理に対する頑健性の問題に依然として悩まされている。本研究では、ローカルシーケンス内の貴重な時間情報に特に注目し、ローカルからグローバルへの学習プロトコルを採用したLocal- & Temporal-aware Transformer-based Deepfake Detection(LTTD)フレームワークを提案する。具体的には、我々は局所配列変換器(LST)を提案する。これは、制限された空間領域の配列上の時間的整合性をモデル化し、低レベルの情報は学習された3Dフィルタの浅い層で階層的に強化されるものである。この局所的な時間的埋め込みに基づき、我々は最終的な分類を大域的な対比の方法で実現する。一般的なデータセットを用いた広範な実験により、我々のアプローチが局所的な偽造の手がかりを効果的に検出し、最先端の性能を達成することが検証された。
要約(オリジナル)
Recent advances in face forgery techniques produce nearly visually untraceable deepfake videos, which could be leveraged with malicious intentions. As a result, researchers have been devoted to deepfake detection. Previous studies have identified the importance of local low-level cues and temporal information in pursuit to generalize well across deepfake methods, however, they still suffer from robustness problem against post-processings. In this work, we propose the Local- & Temporal-aware Transformer-based Deepfake Detection (LTTD) framework, which adopts a local-to-global learning protocol with a particular focus on the valuable temporal information within local sequences. Specifically, we propose a Local Sequence Transformer (LST), which models the temporal consistency on sequences of restricted spatial regions, where low-level information is hierarchically enhanced with shallow layers of learned 3D filters. Based on the local temporal embeddings, we then achieve the final classification in a global contrastive way. Extensive experiments on popular datasets validate that our approach effectively spots local forgery cues and achieves state-of-the-art performance.
arxiv情報
著者 | Jiazhi Guan,Hang Zhou,Zhibin Hong,Errui Ding,Jingdong Wang,Chengbin Quan,Youjian Zhao |
発行日 | 2022-08-10 17:13:11+00:00 |
arxivサイト | arxiv_id(pdf) |