Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning

要約

プレゼンテーション攻撃の検出とフェイスフォーファリー検出は、それぞれ物理メディアベースのプレゼンテーション攻撃とデジタル編集ベースのディープフェイクからフェイスデータを保護するように設計されています。
しかし、これら2つのモデルの個別のトレーニングにより、それらは未知の攻撃や負担の展開環境に対して脆弱になります。
両方のタイプの攻撃を処理するための統一されたフェイス攻撃検出モデルの欠如は、主に2つの要因によるものです。
まず、モデルが探索するための適切なベンチマークが不足しています。
既存のUADデータセットには、攻撃タイプとサンプルが限られているため、高度な脅威に対処するモデルの能力が制限されています。
これに対処するために、これまでで最も広範で洗練された偽造技術のコレクションであるUniattackdataplus(uniattackdata+)を提案します。
2,875個のアイデンティティと54種類の偽造サンプルが含まれ、合計697,347個のビデオです。
第二に、信頼できる分類基準が不足しています。
現在の方法は、同じセマンティック空間内で任意の基準を見つけようとします。これは、多様な攻撃に遭遇したときに失敗します。
そのため、さまざまなセマンティックスペースからの複数の分類基準を適応的に調査する新しい視覚言語モデルベースの階層プロンプトチューニングフレームワーク(Hiptune)を提示します。
視覚的なプロンプトツリーを構築して、さまざまな分類ルールを階層的に調査します。
次に、プロンプトを適応的に剪定することにより、モデルは最も適切なプロンプトを選択して、エンコーダを誘導して、粗からファインの方法で異なるレベルで識別機能を抽出することができます。
最後に、視覚空間の分類基準をモデルが理解できるようにするために、動的にプロンプ​​トの統合モジュールを提案して、より正確なセマンティクスのために視覚プロンプトをテキストエンコーダに投影します。
12のデータセットでの実験により、UAD分野のさらなるイノベーションを刺激する可能性が示されています。

要約(オリジナル)

Presentation Attack Detection and Face Forgery Detection are designed to protect face data from physical media-based Presentation Attacks and digital editing-based DeepFakes respectively. But separate training of these two models makes them vulnerable to unknown attacks and burdens deployment environments. The lack of a Unified Face Attack Detection model to handle both types of attacks is mainly due to two factors. First, there’s a lack of adequate benchmarks for models to explore. Existing UAD datasets have limited attack types and samples, restricting the model’s ability to address advanced threats. To address this, we propose UniAttackDataPlus (UniAttackData+), the most extensive and sophisticated collection of forgery techniques to date. It includes 2,875 identities and their 54 kinds of falsified samples, totaling 697,347 videos. Second, there’s a lack of a reliable classification criterion. Current methods try to find an arbitrary criterion within the same semantic space, which fails when encountering diverse attacks. So, we present a novel Visual-Language Model-based Hierarchical Prompt Tuning Framework (HiPTune) that adaptively explores multiple classification criteria from different semantic spaces. We build a Visual Prompt Tree to explore various classification rules hierarchically. Then, by adaptively pruning the prompts, the model can select the most suitable prompts to guide the encoder to extract discriminative features at different levels in a coarse-to-fine way. Finally, to help the model understand the classification criteria in visual space, we propose a Dynamically Prompt Integration module to project the visual prompts to the text encoder for more accurate semantics. Experiments on 12 datasets have shown the potential to inspire further innovations in the UAD field.

arxiv情報

著者 Ajian Liu,Haocheng Yuan,Xiao Guo,Hui Ma,Wanyi Zhuang,Changtao Miao,Yan Hong,Chuanbiao Song,Jun Lan,Qi Chu,Tao Gong,Yanyan Liang,Weiqiang Wang,Jun Wan,Xiaoming Liu,Zhen Lei
発行日 2025-05-19 16:35:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク