Aligned Datasets Improve Detection of Latent Diffusion-Generated Images

要約

潜在的な拡散モデル(LDM)が画像生成機能を民主化するにつれて、偽の画像を検出する必要性が高まっています。
優れた検出器は、セマンティックコンテンツ、解像度、ファイル形式などの画像プロパティを無視しながら、生成モデルの指紋に焦点を合わせる必要があります。偽の画像検出器は、通常、モデルが実際の画像から分離するようにトレーニングされるようにトレーニングされるデータ駆動型の方法で構築されます。
既存の作品は、主にネットワークアーキテクチャの選択とトレーニングレシピを調査します。
この作業では、これらのアルゴリズムの選択に加えて、堅牢な検出器を訓練するために、実際の/偽画像の適切に整合したデータセットも必要であると主張します。
LDMSのファミリーのために、これを達成するための非常に簡単な方法を提案します。LDMSオートエンコーダーを使用してすべての実際の画像を再構築し、除去操作なしに再構築します。
次に、モデルをトレーニングして、これらの実際の画像を再構成から分離します。
この方法で作成されたフェイクは、ほぼすべての面(サイズ、アスペクト比、セマンティックコンテンツなど)の実際のものと非常に似ており、モデルにLDMデコーダーアーティファクトを探すように強制します。
また、計算上の高価な除去プロセスを回避するアライメントされた実際の/偽のデータセットを作成するこの方法は、非常に人気のある既存の方法が感受性のあるものである偽の相関にあまり焦点を当てていない検出器を構築するのに役立つことを経験的に示します。
最後に、データセットのアライメントがどれほど効果的であるかを示すために、自然なオブジェクトではない画像を使用して検出器を構築し、有望な結果を提示します。
全体として、私たちの仕事は、偽の画像検出器をトレーニングするときに発生する微妙であるが重要な問題を特定し、これらの問題に対処するためのシンプルで安価なソリューションを提案します。

要約(オリジナル)

As latent diffusion models (LDMs) democratize image generation capabilities, there is a growing need to detect fake images. A good detector should focus on the generative models fingerprints while ignoring image properties such as semantic content, resolution, file format, etc. Fake image detectors are usually built in a data driven way, where a model is trained to separate real from fake images. Existing works primarily investigate network architecture choices and training recipes. In this work, we argue that in addition to these algorithmic choices, we also require a well aligned dataset of real/fake images to train a robust detector. For the family of LDMs, we propose a very simple way to achieve this: we reconstruct all the real images using the LDMs autoencoder, without any denoising operation. We then train a model to separate these real images from their reconstructions. The fakes created this way are extremely similar to the real ones in almost every aspect (e.g., size, aspect ratio, semantic content), which forces the model to look for the LDM decoders artifacts. We empirically show that this way of creating aligned real/fake datasets, which also sidesteps the computationally expensive denoising process, helps in building a detector that focuses less on spurious correlations, something that a very popular existing method is susceptible to. Finally, to demonstrate just how effective the alignment in a dataset can be, we build a detector using images that are not natural objects, and present promising results. Overall, our work identifies the subtle but significant issues that arise when training a fake image detector and proposes a simple and inexpensive solution to address these problems.

arxiv情報

著者 Anirudh Sundara Rajan,Utkarsh Ojha,Jedidiah Schloesser,Yong Jae Lee
発行日 2025-02-26 18:55:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク