要約
顔の偽造検出器にとって、目に見えない偽造タイプへの一般化可能性は非常に重要です。
最近の研究は、合成偽造データの拡張による一般化という点で大きな進歩を遂げました。
この研究では、一般化を改善するための別の道を探ります。
私たちの目標は、トレーニング段階で学習しやすい機能を減らして、特定の偽造タイプに過剰適合するリスクを軽減することです。
具体的には、私たちの方法では、教師ネットワークが顔画像を入力として受け取り、多様なマルチヘッドアテンションViTによって深い特徴のアテンションマップを生成します。
アテンション マップは、参加者の多い深い特徴を減らすことで、参加者の少ない特徴に焦点を当てるように学生ネットワークを誘導するために使用されます。
特徴領域で偽造物を合成するための深い特徴混合戦略も提案されています。
実験では、データを増強することなく、私たちの方法が目に見えない偽造や高度に圧縮されたデータに対して有望なパフォーマンスを達成できることを示しています。
要約(オリジナル)
Generalizability to unseen forgery types is crucial for face forgery detectors. Recent works have made significant progress in terms of generalization by synthetic forgery data augmentation. In this work, we explore another path for improving the generalization. Our goal is to reduce the features that are easy to learn in the training phase, so as to reduce the risk of overfitting on specific forgery types. Specifically, in our method, a teacher network takes as input the face images and generates an attention map of the deep features by a diverse multihead attention ViT. The attention map is used to guide a student network to focus on the low-attended features by reducing the highly-attended deep features. A deep feature mixup strategy is also proposed to synthesize forgeries in the feature domain. Experiments demonstrate that, without data augmentation, our method is able to achieve promising performances on unseen forgeries and highly compressed data.
arxiv情報
著者 | Jianwei Fei,Yunshu Dai,Huaming Wang,Zhihua Xia |
発行日 | 2024-11-18 17:14:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google