要約
Clipを効果的で一般化可能なFace Forgery Detectorに変換するように設計されたアダプターネットワークであるForensics Adapterについて説明します。
クリップは非常に用途が広いですが、偽造関連の知識には幅広い無関係な知識が巻き込まれているため、顔の偽造の検出に適応することは自明ではありません。
既存の方法は、クリップを単に特徴抽出器として扱い、タスク固有の適応を欠いているため、有効性が制限されます。
これに対処するために、アダプターを導入して、タスク固有の目的で導かれた、偽造された顔に固有のブレンド境界を導きます。
次に、クリップとアダプターを介した知識を伝える専用のインタラクション戦略で、クリップビジュアルトークンを強化します。
アダプターはクリップと並んでいるため、その汎用性は高度に保持されているため、自然にフェイスフォーリー検出における強力な一般化可能性が確保されます。
わずか5.7mのトレーニング可能なパラメーターを備えたこの方法では、5つの標準データセットで平均で約7%改善されます。
さらに、Forensics Adapter ++を説明します。これは、新たに提案された偽造迅速な迅速な学習戦略を介してテキストモダリティを組み込んだ拡張方法です。
この拡張により、元のフォレンジックアダプターよりもさらに1.3%のパフォーマンスが向上します。
提案された方法は、将来のクリップベースのFace Forgery検出方法のベースラインとして役立つと考えています。
コードはhttps://github.com/ouc-vas/forensicsadapterでリリースされています。
要約(オリジナル)
We describe Forensics Adapter, an adapter network designed to transform CLIP into an effective and generalizable face forgery detector. Although CLIP is highly versatile, adapting it for face forgery detection is non-trivial as forgery-related knowledge is entangled with a wide range of unrelated knowledge. Existing methods treat CLIP merely as a feature extractor, lacking task-specific adaptation, which limits their effectiveness. To address this, we introduce an adapter to learn face forgery traces — the blending boundaries unique to forged faces, guided by task-specific objectives. Then we enhance the CLIP visual tokens with a dedicated interaction strategy that communicates knowledge across CLIP and the adapter. Since the adapter is alongside CLIP, its versatility is highly retained, naturally ensuring strong generalizability in face forgery detection. With only 5.7M trainable parameters, our method achieves a significant performance boost, improving by approximately 7% on average across five standard datasets. Additionally, we describe Forensics Adapter++, an extended method that incorporates textual modality via a newly proposed forgery-aware prompt learning strategy. This extension leads to a further 1.3% performance boost over the original Forensics Adapter. We believe the proposed methods can serve as a baseline for future CLIP-based face forgery detection methods. The codes have been released at https://github.com/OUC-VAS/ForensicsAdapter.
arxiv情報
著者 | Xinjie Cui,Yuezun Li,Delong Zhu,Jiaran Zhou,Junyu Dong,Siwei Lyu |
発行日 | 2025-05-23 16:14:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google