要約
生成モデルはまったく新しい画像を作成できますが、人間の目には検出できない方法で実際の画像を部分的に変更することもできます。
この論文では、このようなローカル操作を自動的に検出するという課題に取り組みます。
ディープフェイク検出における最も差し迫った問題の 1 つは、モデルがさまざまなクラスのジェネレーターに一般化できるかどうかです。
完全に操作された画像の場合、大規模な自己教師ありモデル (CLIP など) から抽出された表現は、より堅牢な検出器に向けた有望な方向性を提供します。
ここでは、ローカル操作を検出するためにこのような大規模な事前トレーニング済み機能を活用する最初の試みである DeCLIP を紹介します。
適度に大規模な畳み込みデコーダと組み合わせると、事前トレーニングされた自己教師あり表現が局所化を実行し、既存の方法よりも一般化能力を向上できることを示します。
以前の研究とは異なり、私たちのアプローチは、画像全体がジェネレーターの指紋の影響を受ける、潜在拡散モデルの困難なケースで位置特定を実行できます。
さらに、ローカルの意味情報とグローバル フィンガープリントを組み合わせたこのタイプのデータは、他のカテゴリの生成手法よりも安定した一般化を提供することが観察されています。
要約(オリジナル)
Generative models can create entirely new images, but they can also partially modify real images in ways that are undetectable to the human eye. In this paper, we address the challenge of automatically detecting such local manipulations. One of the most pressing problems in deepfake detection remains the ability of models to generalize to different classes of generators. In the case of fully manipulated images, representations extracted from large self-supervised models (such as CLIP) provide a promising direction towards more robust detectors. Here, we introduce DeCLIP, a first attempt to leverage such large pretrained features for detecting local manipulations. We show that, when combined with a reasonably large convolutional decoder, pretrained self-supervised representations are able to perform localization and improve generalization capabilities over existing methods. Unlike previous work, our approach is able to perform localization on the challenging case of latent diffusion models, where the entire image is affected by the fingerprint of the generator. Moreover, we observe that this type of data, which combines local semantic information with a global fingerprint, provides more stable generalization than other categories of generative methods.
arxiv情報
著者 | Stefan Smeu,Elisabeta Oneata,Dan Oneata |
発行日 | 2024-12-10 15:35:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google