要約
CLIP を効果的で汎用的な顔偽造検出器に変換するために設計されたアダプター ネットワークであるフォレンジック アダプターについて説明します。
CLIP は汎用性が非常に高いですが、偽造関連の知識は広範囲にわたる無関係な知識と絡み合っているため、CLIP を顔偽造検出に適応させるのは簡単ではありません。
既存の方法では、CLIP を単に特徴抽出器として扱い、タスク固有の適応が欠けているため、有効性が制限されます。
これに対処するために、タスク固有の目標に基づいて、顔の偽造の痕跡、つまり偽造された顔に特有の混合境界を学習するためのアダプターを導入します。
次に、CLIP とアダプター間で知識を伝達する専用の対話戦略を使用して、CLIP ビジュアル トークンを強化します。
このアダプターは CLIP と並行しているため、その汎用性は高く保たれており、顔の偽造検出における強力な汎用性が自然に確保されています。
$\bm{5.7M}$ のみのトレーニング可能なパラメータを使用することで、私たちの手法は大幅なパフォーマンス向上を達成し、5 つの標準データセット全体で平均約 $\bm{7\%}$ 向上しました。
私たちは、提案された方法が将来の CLIP ベースの顔偽造検出方法のベースラインとして機能すると信じています。
要約(オリジナル)
We describe the Forensics Adapter, an adapter network designed to transform CLIP into an effective and generalizable face forgery detector. Although CLIP is highly versatile, adapting it for face forgery detection is non-trivial as forgery-related knowledge is entangled with a wide range of unrelated knowledge. Existing methods treat CLIP merely as a feature extractor, lacking task-specific adaptation, which limits their effectiveness. To address this, we introduce an adapter to learn face forgery traces — the blending boundaries unique to forged faces, guided by task-specific objectives. Then we enhance the CLIP visual tokens with a dedicated interaction strategy that communicates knowledge across CLIP and the adapter. Since the adapter is alongside CLIP, its versatility is highly retained, naturally ensuring strong generalizability in face forgery detection. With only $\bm{5.7M}$ trainable parameters, our method achieves a significant performance boost, improving by approximately $\bm{7\%}$ on average across five standard datasets. We believe the proposed method can serve as a baseline for future CLIP-based face forgery detection methods.
arxiv情報
著者 | Xinjie Cui,Yuezun Li,Ao Luo,Jiaran Zhou,Junyu Dong |
発行日 | 2024-11-29 14:02:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google