要約
既存のディープフェイク検出方法は、目に見えないサンプルや劣化したサンプルに対して十分に一般化できません。これは、低レベルの偽造パターンの過剰適合に起因する可能性があります。
ここで我々は、高レベルのセマンティクスも一般化可能な偽造検出に不可欠なレシピであると主張します。
最近、大規模な事前トレーニング済みビジョン トランスフォーマー (ViT) が有望な一般化機能を示しています。
この論文では、ディープフェイク検出を支援するために、事前にトレーニングされた大規模な ViT から一般化可能な高レベルのセマンティクスを効果的かつ効率的に適応させる、ディープフェイク検出のための最初のパラメーター効率の高い調整アプローチ、つまりディープフェイク アダプターを提案します。
大規模な事前トレーニング済みモデルが限られたディープフェイク データを考慮すると、DeepFake-Adapter は、モデルのバックボーンを凍結したままにしながら、軽量でありながら専用のデュアルレベル アダプター モジュールを ViT に導入します。
具体的には、ディープフェイク データのグローバルとローカルの両方の偽造キューを認識するように適応プロセスを導くために、1) ViT の MLP レイヤーに並行してグローバルに認識されたボトルネック アダプターを挿入するだけでなく、ローカルで積極的に相互参加します。
ViT の機能を備えた空間アダプターを認識します。
単に低レベルの偽造パターンに焦点を当てた既存のディープフェイク検出方法とは異なり、私たちのモデルの偽造検出プロセスは、事前トレーニングされた ViT からの一般化可能な高レベルのセマンティクスによって正規化でき、ディープフェイク データのグローバルおよびローカルの低レベルの偽造に適応できます。
いくつかの標準的なディープフェイク検出ベンチマークに関する広範な実験により、私たちのアプローチの有効性が検証されました。
特に、DeepFake-Adapter は、クロスデータセットおよびクロス操作設定の下で説得力のある利点を示しています。
ソースコードはhttps://github.com/rshaojimmy/DeepFake-Adapterで公開されています
要約(オリジナル)
Existing deepfake detection methods fail to generalize well to unseen or degraded samples, which can be attributed to the over-fitting of low-level forgery patterns. Here we argue that high-level semantics are also indispensable recipes for generalizable forgery detection. Recently, large pre-trained Vision Transformers (ViTs) have shown promising generalization capability. In this paper, we propose the first parameter-efficient tuning approach for deepfake detection, namely DeepFake-Adapter, to effectively and efficiently adapt the generalizable high-level semantics from large pre-trained ViTs to aid deepfake detection. Given large pre-trained models but limited deepfake data, DeepFake-Adapter introduces lightweight yet dedicated dual-level adapter modules to a ViT while keeping the model backbone frozen. Specifically, to guide the adaptation process to be aware of both global and local forgery cues of deepfake data, 1) we not only insert Globally-aware Bottleneck Adapters in parallel to MLP layers of ViT, 2) but also actively cross-attend Locally-aware Spatial Adapters with features from ViT. Unlike existing deepfake detection methods merely focusing on low-level forgery patterns, the forgery detection process of our model can be regularized by generalizable high-level semantics from a pre-trained ViT and adapted by global and local low-level forgeries of deepfake data. Extensive experiments on several standard deepfake detection benchmarks validate the effectiveness of our approach. Notably, DeepFake-Adapter demonstrates a convincing advantage under cross-dataset and cross-manipulation settings. The source code is released at https://github.com/rshaojimmy/DeepFake-Adapter
arxiv情報
著者 | Rui Shao,Tianxing Wu,Liqiang Nie,Ziwei Liu |
発行日 | 2023-06-01 16:23:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google