Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection

要約

ディープフェイクの顔の蔓延は、私たちの日常生活に多大な悪影響を与える可能性があります。
ここ数年でディープフェイク検出が大幅に進歩したにもかかわらず、目に見えないデータセットからの偽造や新たな生成モデルによって作成された偽造に対する既存の手法の一般化可能性には依然として制約があります。
この論文では、視覚言語モデル (VLM) のゼロショットの利点に触発され、よく訓練された VLM を一般的なディープフェイク検出に再利用する新しいアプローチを提案します。
データ摂動を介してモデル予測を操作するモデル再プログラミング パラダイムによって動機付けられた私たちの方法は、内部パラメーターを調整せずに、入力の操作のみに基づいて事前トレーニング済み VLM モデル (CLIP など) を再プログラムできます。
さらに、顔のアイデンティティに基づいて擬似単語をテキスト プロンプトに挿入します。
いくつかの人気のあるベンチマークに関する広範な実験により、(1) ディープフェイク検出のクロスデータセットおよびクロス操作のパフォーマンスが、事前の
私たちが提案する再プログラミング方法を使用してトレーニングされたCLIPモデル。
(2) 私たちの優れたパフォーマンスは、トレーニング可能なパラメーターのコストを削減することで得られるため、現実世界のアプリケーションにとって有望なアプローチとなっています。

要約(オリジナル)

The proliferation of deepfake faces poses huge potential negative impacts on our daily lives. Despite substantial advancements in deepfake detection over these years, the generalizability of existing methods against forgeries from unseen datasets or created by emerging generative models remains constrained. In this paper, inspired by the zero-shot advantages of Vision-Language Models (VLMs), we propose a novel approach that repurposes a well-trained VLM for general deepfake detection. Motivated by the model reprogramming paradigm that manipulates the model prediction via data perturbations, our method can reprogram a pretrained VLM model (e.g., CLIP) solely based on manipulating its input without tuning the inner parameters. Furthermore, we insert a pseudo-word guided by facial identity into the text prompt. Extensive experiments on several popular benchmarks demonstrate that (1) the cross-dataset and cross-manipulation performances of deepfake detection can be significantly and consistently improved (e.g., over 88% AUC in cross-dataset setting from FF++ to WildDeepfake) using a pre-trained CLIP model with our proposed reprogramming method; (2) our superior performances are at less cost of trainable parameters, making it a promising approach for real-world applications.

arxiv情報

著者 Kaiqing Lin,Yuzhen Lin,Weixiang Li,Taiping Yao,Bin Li
発行日 2024-09-04 12:46:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク