Real-Time Deepfake Detection in the Real-World

要約

最近の生成 AI の改良により、偽の画像の合成が容易になりました。
これらは危害を引き起こすために使用される可能性があるため、それらを特定する正確な技術を開発することが重要です。
この論文では、単一の 9×9 画像パッチを受け入れ、そのディープフェイク スコアを出力する「Locally Aware Deepfake Detection Algorithm」(LaDeDa) を紹介します。
画像のディープフェイク スコアは、そのパッチのプールされたスコアです。
パッチレベルの情報だけで、LaDeDa は最先端技術を大幅に改善し、現在のベンチマークで約 99% の mAP を達成します。
LaDeDa のパッチレベル構造により、生成アーチファクトは単純なモデルで検出できると仮説を立てます。
したがって、LaDeDa を Tiny-LaDeDa に抽出します。Tiny-LaDeDa は、わずか 4 つの畳み込み層で構成される非常に効率的なモデルです。
驚くべきことに、Tiny-LaDeDa は LaDeDa に比べて FLOP が 375 分の 1 で、パラメータ効率が 10,000 倍高いため、精度はわずかに低下しますが、エッジ デバイス上で効率的に実行できます。
これらのほぼ完璧なスコアは、ディープフェイク検出の課題は解決に近づいているのか?という疑問を引き起こします。
おそらく驚くべきことかもしれませんが、私たちの調査により、現在のトレーニング プロトコルでは、ソーシャル メディアから抽出された現実世界のディープフェイクへの手法の一般化が妨げられていることが明らかになりました。
この問題に対処するために、いくつかの人気のあるソーシャル ネットワークから厳選された新しいディープフェイク検出データセットである WildRF を紹介します。
私たちの手法は、WildRF 上で 93.7% mAP という最高のパフォーマンスを達成していますが、完全な精度からの大きなギャップは、信頼できる現実世界のディープフェイク検出がまだ解決されていないことを示しています。

要約(オリジナル)

Recent improvements in generative AI made synthesizing fake images easy; as they can be used to cause harm, it is crucial to develop accurate techniques to identify them. This paper introduces ‘Locally Aware Deepfake Detection Algorithm’ (LaDeDa), that accepts a single 9×9 image patch and outputs its deepfake score. The image deepfake score is the pooled score of its patches. With merely patch-level information, LaDeDa significantly improves over the state-of-the-art, achieving around 99% mAP on current benchmarks. Owing to the patch-level structure of LaDeDa, we hypothesize that the generation artifacts can be detected by a simple model. We therefore distill LaDeDa into Tiny-LaDeDa, a highly efficient model consisting of only 4 convolutional layers. Remarkably, Tiny-LaDeDa has 375x fewer FLOPs and is 10,000x more parameter-efficient than LaDeDa, allowing it to run efficiently on edge devices with a minor decrease in accuracy. These almost-perfect scores raise the question: is the task of deepfake detection close to being solved? Perhaps surprisingly, our investigation reveals that current training protocols prevent methods from generalizing to real-world deepfakes extracted from social media. To address this issue, we introduce WildRF, a new deepfake detection dataset curated from several popular social networks. Our method achieves the top performance of 93.7% mAP on WildRF, however the large gap from perfect accuracy shows that reliable real-world deepfake detection is still unsolved.

arxiv情報

著者 Bar Cavia,Eliahu Horwitz,Tal Reiss,Yedid Hoshen
発行日 2024-06-13 17:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク