要約
AI-合成面を検出することは、重要な課題を提示します。多様な生成技術にわたって、顔面地域間の一貫した構造的関係を捉えることは困難です。
基本的な矛盾ではなく特定のアーティファクトに焦点を当てた現在の方法は、新しい生成モデルに直面したときにしばしば失敗します。
この制限に対処するために、堅牢な顔の偽造検出のために設計されたビジョントランスであるレイヤーアウェアマスク変調視界変圧器(LAMM-vit)を導入します。
このモデルは、各レイヤー内の異なる領域誘導マルチヘッド注意(RG-MHA)とレイヤーアウェアマスク変調(LAMM)コンポーネントを統合します。
RG-MHAは、フェイシャルランドマークを利用して地域の注意マスクを作成し、さまざまな顔の領域で建築的矛盾を精査するためにモデルを導きます。
重要なことに、個別のLAMMモジュールは、ネットワークコンテキストに基づいて、マスクの重みやゲーティング値を含む層固有のパラメーターを動的に生成します。
次に、これらのパラメーターはRG-MHAの動作を変調し、ネットワークの深さにわたる地域の焦点の適応調整を可能にします。
このアーキテクチャは、GANや拡散モデルなどの多様な生成技術の中で遍在する、微妙で階層的な偽造の手がかりのキャプチャを促進します。
クロスモデル一般化テストでは、LAMM-vitは優れたパフォーマンスを示し、94.09%の平均ACC(SOTAよりもA +5.45%の改善)と98.62%の平均AP(A +3.09%の改善)を達成します。
これらの結果は、LAMM-vitの一般化する例外的な能力と、進化する合成メディアの脅威に対する信頼できる展開の可能性を示しています。
要約(オリジナル)
Detecting AI-synthetic faces presents a critical challenge: it is hard to capture consistent structural relationships between facial regions across diverse generation techniques. Current methods, which focus on specific artifacts rather than fundamental inconsistencies, often fail when confronted with novel generative models. To address this limitation, we introduce Layer-aware Mask Modulation Vision Transformer (LAMM-ViT), a Vision Transformer designed for robust facial forgery detection. This model integrates distinct Region-Guided Multi-Head Attention (RG-MHA) and Layer-aware Mask Modulation (LAMM) components within each layer. RG-MHA utilizes facial landmarks to create regional attention masks, guiding the model to scrutinize architectural inconsistencies across different facial areas. Crucially, the separate LAMM module dynamically generates layer-specific parameters, including mask weights and gating values, based on network context. These parameters then modulate the behavior of RG-MHA, enabling adaptive adjustment of regional focus across network depths. This architecture facilitates the capture of subtle, hierarchical forgery cues ubiquitous among diverse generation techniques, such as GANs and Diffusion Models. In cross-model generalization tests, LAMM-ViT demonstrates superior performance, achieving 94.09% mean ACC (a +5.45% improvement over SoTA) and 98.62% mean AP (a +3.09% improvement). These results demonstrate LAMM-ViT’s exceptional ability to generalize and its potential for reliable deployment against evolving synthetic media threats.
arxiv情報
著者 | Jiangling Zhang,Weijie Zhu,Jirui Huang,Yaxiong Chen |
発行日 | 2025-05-12 16:42:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google