要約
洗練されたAIに生成されたディープフェイクの急増は、デジタルメディア認証と社会的セキュリティに重大な課題をもたらします。
既存の検出方法は特定の生成ドメイン内でうまく機能しますが、目に見えないアーキテクチャによって生成される操作に適用されると、有意な性能劣化を示します。これは、生成技術が急速に進化するための基本的な制限です。
camme(クロスアテンションマルチモーダル埋め込み)を提案します。これは、マルチヘッドクロスアテナンスメカニズムを通じて視覚、テキスト、および周波数ドメインの特徴を動的に統合して、堅牢なクロスドメイン一般化を確立することを提案します。
広範な実験は、最先端の方法に対するCammeの優位性を示し、自然なシーンで12.56%、フェイシャルディープフェイクで13.25%の改善をもたらします。
このフレームワークは、自然な画像摂動の下で(91%以上)精度を維持し、それぞれPGDおよびFGSMの敵対的攻撃に対して89.01%および96.14%の精度を達成した例外的な回復力を示しています。
私たちの調査結果は、相互出絶対による補完的なモダリティを統合することで、異種の生成アーキテクチャ全体で信頼できるディープフェイク検出のためのより効果的な決定境界再編成により、より効果的な決定境界再編成が可能になることを検証します。
要約(オリジナル)
The proliferation of sophisticated AI-generated deepfakes poses critical challenges for digital media authentication and societal security. While existing detection methods perform well within specific generative domains, they exhibit significant performance degradation when applied to manipulations produced by unseen architectures–a fundamental limitation as generative technologies rapidly evolve. We propose CAMME (Cross-Attention Multi-Modal Embeddings), a framework that dynamically integrates visual, textual, and frequency-domain features through a multi-head cross-attention mechanism to establish robust cross-domain generalization. Extensive experiments demonstrate CAMME’s superiority over state-of-the-art methods, yielding improvements of 12.56% on natural scenes and 13.25% on facial deepfakes. The framework demonstrates exceptional resilience, maintaining (over 91%) accuracy under natural image perturbations and achieving 89.01% and 96.14% accuracy against PGD and FGSM adversarial attacks, respectively. Our findings validate that integrating complementary modalities through cross-attention enables more effective decision boundary realignment for reliable deepfake detection across heterogeneous generative architectures.
arxiv情報
著者 | Naseem Khan,Tuan Nguyen,Amine Bermak,Issa Khalil |
発行日 | 2025-05-23 15:39:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google