要約
私たちは、eXplainable Artificial Intelligence (XAI) を使用してディープフェイク検出器に対する敵対的攻撃を特定するための新しい方法論を紹介します。
デジタルの進歩を特徴とする時代において、ディープフェイクは強力なツールとして台頭しており、効率的な検出システムの需要が生まれています。
ただし、これらのシステムは、パフォーマンスを阻害する敵対的な攻撃の標的になることがよくあります。
私たちはこのギャップに対処し、XAI の力を活用して防御可能なディープフェイク検出器を開発しています。
提案された方法論では、XAI を使用して特定のメソッドの解釈可能性マップを生成し、AI モデル内の意思決定要因を明示的に視覚化します。
その後、入力画像とそれに対応する XAI 画像の両方を処理する事前トレーニング済みの特徴抽出器を使用します。
このプロセスから抽出された特徴埋め込みは、シンプルだが効果的な分類器のトレーニングに使用されます。
私たちのアプローチは、ディープフェイクの検出に貢献するだけでなく、潜在的な脆弱性を正確に特定して、起こり得る敵対的攻撃の理解を強化します。
さらに、このアプローチではディープフェイク検出器のパフォーマンスは変わりません。
この論文は、将来のディープフェイク検出メカニズムの可能性を示唆する有望な結果を示しています。
私たちは、この研究がコミュニティへの貴重な貢献となり、ディープフェイク検出器の保護に関する待望の議論を引き起こすものになると信じています。
要約(オリジナル)
We introduce a novel methodology for identifying adversarial attacks on deepfake detectors using eXplainable Artificial Intelligence (XAI). In an era characterized by digital advancement, deepfakes have emerged as a potent tool, creating a demand for efficient detection systems. However, these systems are frequently targeted by adversarial attacks that inhibit their performance. We address this gap, developing a defensible deepfake detector by leveraging the power of XAI. The proposed methodology uses XAI to generate interpretability maps for a given method, providing explicit visualizations of decision-making factors within the AI models. We subsequently employ a pretrained feature extractor that processes both the input image and its corresponding XAI image. The feature embeddings extracted from this process are then used for training a simple yet effective classifier. Our approach contributes not only to the detection of deepfakes but also enhances the understanding of possible adversarial attacks, pinpointing potential vulnerabilities. Furthermore, this approach does not change the performance of the deepfake detector. The paper demonstrates promising results suggesting a potential pathway for future deepfake detection mechanisms. We believe this study will serve as a valuable contribution to the community, sparking much-needed discourse on safeguarding deepfake detectors.
arxiv情報
著者 | Ben Pinhasov,Raz Lapid,Rony Ohayon,Moshe Sipper,Yehudit Aperstein |
発行日 | 2024-03-05 13:25:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google