要約
フェイスアンチスポーフィング(FAS)は、支払い処理や監視などの多様なシナリオで顔認識システムのセキュリティに不可欠です。
現在のマルチモーダルFASメソッドは、主にモダリティ固有のバイアスとドメインシフトのために、効果的な一般化に苦労することがよくあります。
これらの課題に対処するために、\ textbf {m} ulti \ textbf {m} odal \ textbf {d} enoisingおよび\ textbf {a} lignment(\ textbf {mmda})フレームワークを紹介します。
CLIPのゼロショット一般化機能を活用することにより、MMDAフレームワークは、除去およびアライメントメカニズムを通じてマルチモーダルデータのノイズを効果的に抑制し、それによりクロスモーダルアライメントの一般化パフォーマンスを大幅に向上させます。
\ textbf {m} odality- \ textbf {d} omain Joint \ textbf {d} ifferential \ textbf {a} ttention(\ textbf {md2a})モジュールのモジュールは、一般的なメカニズムに基づくメカニズムを促進するためのドメインとモダリティノイズの影響を緩和します。
さらに、\ textbf {r} epresentation \ textbf {s} pace \ textbf {s} oft(\ textbf {rs2})アライメント戦略は、事前に訓練されたクリップモデルを利用して、マルチドメインのマルチモーダルデータを整列させ、一般的な表現スペースに柔軟な表現を促進するために、柔軟な表現を促進します。
目に見えない条件。
また、\ textbf {u} – shaped \ textbf {d} ual \ textbf {s} pace \ textbf {a} daptation(\ textbf {u-dsa})モジュールを設計し、表現の適応性を強化しながら、一般化のパフォーマンスを維持します。
これらの改善は、フレームワークの一般化能力を高めるだけでなく、複雑な表現を表現する能力を高めます。
さまざまな評価プロトコルの下での4つのベンチマークデータセットでの実験結果は、MMDAフレームワークが、クロスドメインの一般化とマルチモーダル検出精度の観点から既存の最先端の方法を上回ることを示しています。
コードはまもなくリリースされます。
要約(オリジナル)
Face Anti-Spoofing (FAS) is essential for the security of facial recognition systems in diverse scenarios such as payment processing and surveillance. Current multimodal FAS methods often struggle with effective generalization, mainly due to modality-specific biases and domain shifts. To address these challenges, we introduce the \textbf{M}ulti\textbf{m}odal \textbf{D}enoising and \textbf{A}lignment (\textbf{MMDA}) framework. By leveraging the zero-shot generalization capability of CLIP, the MMDA framework effectively suppresses noise in multimodal data through denoising and alignment mechanisms, thereby significantly enhancing the generalization performance of cross-modal alignment. The \textbf{M}odality-\textbf{D}omain Joint \textbf{D}ifferential \textbf{A}ttention (\textbf{MD2A}) module in MMDA concurrently mitigates the impacts of domain and modality noise by refining the attention mechanism based on extracted common noise features. Furthermore, the \textbf{R}epresentation \textbf{S}pace \textbf{S}oft (\textbf{RS2}) Alignment strategy utilizes the pre-trained CLIP model to align multi-domain multimodal data into a generalized representation space in a flexible manner, preserving intricate representations and enhancing the model’s adaptability to various unseen conditions. We also design a \textbf{U}-shaped \textbf{D}ual \textbf{S}pace \textbf{A}daptation (\textbf{U-DSA}) module to enhance the adaptability of representations while maintaining generalization performance. These improvements not only enhance the framework’s generalization capabilities but also boost its ability to represent complex representations. Our experimental results on four benchmark datasets under different evaluation protocols demonstrate that the MMDA framework outperforms existing state-of-the-art methods in terms of cross-domain generalization and multimodal detection accuracy. The code will be released soon.
arxiv情報
著者 | Yingjie Ma,Xun Lin,Zitong Yu,Xin Liu,Xiaochen Yuan,Weicheng Xie,Linlin Shen |
発行日 | 2025-05-14 15:36:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google