SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models

要約

マルチモーダル大規模言語モデル (MLLM) は、強力な視覚的意味表現と言語推論能力に基づいて、さまざまな視覚分野 (一般的なオブジェクトの認識やグラウンディングなど) で顕著な問題解決能力を実証してきました。
ただし、MLLM が微妙な視覚的ななりすまし/偽造された手がかりに敏感であるかどうか、および顔攻撃検出の領域 (顔のなりすましや偽造の検出など) でどのように機能するかはまだ解明されていません。
このペーパーでは、顔のなりすましと偽造の検出における MLLM の能力を評価するための新しいベンチマーク、つまり SHIELD を紹介します。
具体的には、これら 2 つの顔セキュリティ タスクにおけるマルチモーダルな顔データを評価するための、正誤問題と多肢選択式の質問を設計します。
顔のスプーフィング対策タスクでは、4 種類のプレゼンテーション攻撃 (つまり、印刷攻撃、リプレイ攻撃、剛体マスク、紙マスク) の下で 3 つの異なるモダリティ (つまり、RGB、赤外線、深度) を評価します。
顔偽造検出タスクでは、視覚モダリティと音響モダリティの両方を使用して GAN ベースと拡散ベースのデータを評価します。
各質問は、標準設定および思考連鎖 (COT) 設定の下で、ゼロショット テストと少数ショット テストの両方の対象となります。
この結果は、MLLM が顔のセキュリティ領域で大きな可能性を秘めており、解釈可能性、マルチモーダルな柔軟な推論、および顔のなりすましと偽造の統合検出の点で、従来の特定のモデルに比べて利点があることを示しています。
さらに、顔画像のさまざまなタスク固有およびタスクに無関係な属性を記述および判断するための新しい多属性思考連鎖 (MA-COT) パラダイムを開発します。これにより、微妙ななりすまし/偽造手がかりマイニングのための豊富なタスク関連知識が提供されます。
個別の顔のなりすまし防止、個別の顔の偽造検出、および共同検出タスクにおける広範な実験により、提案された MA-COT の有効性が実証されています。
プロジェクトは https$:$//github.com/laiyingxin2/SHIELD で入手できます。

要約(オリジナル)

Multimodal large language models (MLLMs) have demonstrated remarkable problem-solving capabilities in various vision fields (e.g., generic object recognition and grounding) based on strong visual semantic representation and language reasoning ability. However, whether MLLMs are sensitive to subtle visual spoof/forged clues and how they perform in the domain of face attack detection (e.g., face spoofing and forgery detection) is still unexplored. In this paper, we introduce a new benchmark, namely SHIELD, to evaluate the ability of MLLMs on face spoofing and forgery detection. Specifically, we design true/false and multiple-choice questions to evaluate multimodal face data in these two face security tasks. For the face anti-spoofing task, we evaluate three different modalities (i.e., RGB, infrared, depth) under four types of presentation attacks (i.e., print attack, replay attack, rigid mask, paper mask). For the face forgery detection task, we evaluate GAN-based and diffusion-based data with both visual and acoustic modalities. Each question is subjected to both zero-shot and few-shot tests under standard and chain of thought (COT) settings. The results indicate that MLLMs hold substantial potential in the face security domain, offering advantages over traditional specific models in terms of interpretability, multimodal flexible reasoning, and joint face spoof and forgery detection. Additionally, we develop a novel Multi-Attribute Chain of Thought (MA-COT) paradigm for describing and judging various task-specific and task-irrelevant attributes of face images, which provides rich task-related knowledge for subtle spoof/forged clue mining. Extensive experiments in separate face anti-spoofing, separate face forgery detection, and joint detection tasks demonstrate the effectiveness of the proposed MA-COT. The project is available at https$:$//github.com/laiyingxin2/SHIELD

arxiv情報

著者 Yichen Shi,Yuhao Gao,Yingxin Lai,Hongyang Wang,Jun Feng,Lei He,Jun Wan,Changsheng Chen,Zitong Yu,Xiaochun Cao
発行日 2024-02-06 17:31:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク