要約
ディープフェイクは最近、公衆の間で重大な信頼性の問題とセキュリティ上の懸念を引き起こしています。
CNN 顔偽造検出器と比較して、ViT ベースの方法はトランスフォーマーの表現力を活用し、優れた検出パフォーマンスを実現します。
ただし、これらのアプローチには依然として次の制限があります: (1)。
ImageNet の重みから ViT ベースのモデルを完全に微調整するには、大量の計算リソースとストレージ リソースが必要です。
(2)。
ViT ベースの手法では、局所的な偽造の手がかりを捕捉するのが難しく、モデルの偏りや一般化の限界につながります。
これらの課題に取り組むために、この作業では、一般化されているがパラメータ効率の高い ViT ベースのアプローチである顔偽造検出 (MoE-FFD) 用の専門家混合モジュールを導入しています。
MoE-FFD は、ViT バックボーンをフリーズしたままにして、軽量の低ランク適応 (LoRA) 層とアダプター層のみを更新するため、パラメーター効率の高いトレーニングが実現します。
さらに、MoE-FFD は、トランスフォーマーの表現力と CNN のローカル事前確率を活用して、グローバルおよびローカルの偽造の手掛かりを同時に抽出します。
さらに、新しい MoE モジュールは、モデルの容量を拡張し、最適な偽造エキスパートを選択するように設計されており、偽造検出パフォーマンスをさらに強化します。
提案された MoE 学習スキームは、プラグ アンド プレイ方式でさまざまな変圧器バックボーンにシームレスに適合できます。
広範な実験結果は、提案された方法がパラメータのオーバーヘッドを削減しながら最先端の顔偽造検出パフォーマンスを達成することを実証しています。
コードは承認され次第公開されます。
要約(オリジナル)
Deepfakes have recently raised significant trust issues and security concerns among the public. Compared to CNN face forgery detectors, ViT-based methods take advantage of the expressivity of transformers, achieving superior detection performance. However, these approaches still exhibit the following limitations: (1). Fully fine-tuning ViT-based models from ImageNet weights demands substantial computational and storage resources; (2). ViT-based methods struggle to capture local forgery clues, leading to model bias and limited generalizability. To tackle these challenges, this work introduces Mixture-of-Experts modules for Face Forgery Detection (MoE-FFD), a generalized yet parameter-efficient ViT-based approach. MoE-FFD only updates lightweight Low-Rank Adaptation (LoRA) and Adapter layers while keeping the ViT backbone frozen, thereby achieving parameter-efficient training. Moreover, MoE-FFD leverages the expressivity of transformers and local priors of CNNs to simultaneously extract global and local forgery clues. Additionally, novel MoE modules are designed to scale the model’s capacity and select optimal forgery experts, further enhancing forgery detection performance. The proposed MoE learning scheme can be seamlessly adapted to various transformer backbones in a plug-and-play manner. Extensive experimental results demonstrate that the proposed method achieves state-of-the-art face forgery detection performance with reduced parameter overhead. The code will be released upon acceptance.
arxiv情報
著者 | Chenqi Kong,Anwei Luo,Song Xia,Yi Yu,Haoliang Li,Alex C. Kot |
発行日 | 2024-04-12 13:02:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google