要約
潜在拡散モデル (LDM) によって画像生成機能が民主化されるにつれ、偽の画像を検出する必要性が高まっています。
優れた検出器は、セマンティック コンテンツ、解像度、ファイル形式などの画像プロパティを無視して、生成モデルのフィンガープリントに焦点を当てる必要があります。偽画像検出器は通常、データ駆動型の方法で構築され、本物の画像と偽の画像を区別するようにモデルがトレーニングされます。
既存の研究では、主にネットワーク アーキテクチャの選択とトレーニング レシピを調査しています。
この研究では、これらのアルゴリズムの選択に加えて、堅牢な検出器をトレーニングするには、適切に調整された本物/偽画像のデータセットも必要であると主張します。
LDM ファミリについては、これを達成するための非常に簡単な方法を提案します。つまり、ノイズ除去操作を行わずに、LDM オートエンコーダを使用してすべての実際の画像を再構成します。
次に、これらの実画像を再構成画像から分離するためにモデルをトレーニングします。
この方法で作成された偽物は、ほぼすべての側面 (サイズ、アスペクト比、セマンティック コンテンツなど) において本物と非常に似ているため、モデルは LDM デコーダのアーティファクトを探す必要があります。
私たちは、位置合わせされた本物/偽のデータセットを作成するこの方法が、計算コストのかかるノイズ除去プロセスを回避し、非常に一般的な既存の方法が影響を受けやすい誤った相関をあまり重視しない検出器の構築に役立つことを経験的に示しています。
最後に、データセット内の位置合わせがどれほど効果的であるかを実証するために、自然物体ではない画像を使用して検出器を構築し、有望な結果を示します。
全体として、私たちの研究は、偽画像検出器をトレーニングする際に生じる微妙だが重要な問題を特定し、これらの問題に対処するためのシンプルで安価なソリューションを提案します。
要約(オリジナル)
As latent diffusion models (LDMs) democratize image generation capabilities, there is a growing need to detect fake images. A good detector should focus on the generative models fingerprints while ignoring image properties such as semantic content, resolution, file format, etc. Fake image detectors are usually built in a data driven way, where a model is trained to separate real from fake images. Existing works primarily investigate network architecture choices and training recipes. In this work, we argue that in addition to these algorithmic choices, we also require a well aligned dataset of real/fake images to train a robust detector. For the family of LDMs, we propose a very simple way to achieve this: we reconstruct all the real images using the LDMs autoencoder, without any denoising operation. We then train a model to separate these real images from their reconstructions. The fakes created this way are extremely similar to the real ones in almost every aspect (e.g., size, aspect ratio, semantic content), which forces the model to look for the LDM decoders artifacts. We empirically show that this way of creating aligned real/fake datasets, which also sidesteps the computationally expensive denoising process, helps in building a detector that focuses less on spurious correlations, something that a very popular existing method is susceptible to. Finally, to demonstrate just how effective the alignment in a dataset can be, we build a detector using images that are not natural objects, and present promising results. Overall, our work identifies the subtle but significant issues that arise when training a fake image detector and proposes a simple and inexpensive solution to address these problems.
arxiv情報
著者 | Anirudh Sundara Rajan,Utkarsh Ojha,Jedidiah Schloesser,Yong Jae Lee |
発行日 | 2024-10-15 17:58:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google