要約
近年、顔面加工技術によりリアルな顔が容易に生成できるようになったため、悪意ある悪用が懸念されています。そのため、多くのディープフェイク検出手法が提案されています。しかし、既存の手法は、一段階の顔面加工を検出することにのみ焦点が当てられています。しかし、手軽に利用できる顔画像編集アプリケーションの登場により、多段階の操作を連続的に行うことが可能になりました。このため、ディープフェイクの検出と復元には、顔操作の連続性を検出することが重要です。この観測に動機づけられ、我々はその必要性を強調し、Detecting Sequential DeepFake Manipulation (Seq-DeepFake) という新しい研究課題を提案します。Seq-DeepFakeは、2値ラベルの予測のみが求められる既存のDeepFake検出課題とは異なり、顔操作の連続したベクトルを正しく予測することが求められます。大規模な調査をサポートするために、我々は最初のSeq-DeepFakeデータセットを構築し、顔画像は連続的に操作され、対応する連続した顔操作のベクトルのアノテーションがあることを確認する。この新しいデータセットに基づき、我々はSeq-DeepFake操作を特定の画像からシーケンス(例えば、画像キャプション)タスクとして検出し、簡潔かつ効果的なSeq-DeepFake Transformer(SeqFakeFormer)を提案する。さらに、この新しい研究課題に対して、包括的なベンチマークを構築し、厳密な評価プロトコルと評価基準を設定する。広範な実験により、SeqFakeFormerの有効性を実証する。また、より広範なディープフェイク検出問題における将来の研究を促進するためのいくつかの貴重な観察結果も明らかにした。
要約(オリジナル)
Since photorealistic faces can be readily generated by facial manipulation technologies nowadays, potential malicious abuse of these technologies has drawn great concerns. Numerous deepfake detection methods are thus proposed. However, existing methods only focus on detecting one-step facial manipulation. As the emergence of easy-accessible facial editing applications, people can easily manipulate facial components using multi-step operations in a sequential manner. This new threat requires us to detect a sequence of facial manipulations, which is vital for both detecting deepfake media and recovering original faces afterwards. Motivated by this observation, we emphasize the need and propose a novel research problem called Detecting Sequential DeepFake Manipulation (Seq-DeepFake). Unlike the existing deepfake detection task only demanding a binary label prediction, detecting Seq-DeepFake manipulation requires correctly predicting a sequential vector of facial manipulation operations. To support a large-scale investigation, we construct the first Seq-DeepFake dataset, where face images are manipulated sequentially with corresponding annotations of sequential facial manipulation vectors. Based on this new dataset, we cast detecting Seq-DeepFake manipulation as a specific image-to-sequence (e.g. image captioning) task and propose a concise yet effective Seq-DeepFake Transformer (SeqFakeFormer). Moreover, we build a comprehensive benchmark and set up rigorous evaluation protocols and metrics for this new research problem. Extensive experiments demonstrate the effectiveness of SeqFakeFormer. Several valuable observations are also revealed to facilitate future research in broader deepfake detection problems.
arxiv情報
著者 | Rui Shao,Tianxing Wu,Ziwei Liu |
発行日 | 2022-07-05 17:59:33+00:00 |
arxivサイト | arxiv_id(pdf) |