AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction Error

要約

最近のテキストから画像へのモデルを使用すると、誰でも任意のコンテンツを含む一見リアルな画像を生成でき、視覚的な偽情報の脅威が増大しています。
低い計算コストで高解像度の画像を生成するための重要な要因は、潜在拡散モデル (LDM) の開発です。
従来の拡散モデルとは対照的に、LDM は、高次元の画像空間ではなく、事前トレーニングされたオートエンコーダー (AE) の低次元の潜在空間でノイズ除去プロセスを実行します。
その関連性にもかかわらず、LDM の法医学的分析はまだ初期段階にあります。
この研究では、LDM の固有コンポーネントである画像と潜在空間の間で画像を変換するために使用される AE を利用する新しい検出方法である AEROBLADE を提案します。
生成された画像は、実際の画像よりも AE によってより正確に再構成でき、再構成誤差に基づく単純な検出アプローチが可能になることがわかりました。
最も重要なことは、私たちの手法は実装が簡単でトレーニングを必要としないにもかかわらず、広範なトレーニングに依存する検出器のパフォーマンスとほぼ同等であるということです。
当社は、AEROBLADE が Stable Diffusion や Midjourney を含む最先端の LDM に対して有効であることを経験的に実証しています。
私たちのアプローチでは、検出だけでなく、画像の定性分析も可能であり、これを修復領域の特定に活用できます。

要約(オリジナル)

With recent text-to-image models, anyone can generate deceptively realistic images with arbitrary contents, fueling the growing threat of visual disinformation. A key enabler for generating high-resolution images with low computational cost has been the development of latent diffusion models (LDMs). In contrast to conventional diffusion models, LDMs perform the denoising process in the low-dimensional latent space of a pre-trained autoencoder (AE) instead of the high-dimensional image space. Despite their relevance, the forensic analysis of LDMs is still in its infancy. In this work we propose AEROBLADE, a novel detection method which exploits an inherent component of LDMs: the AE used to transform images between image and latent space. We find that generated images can be more accurately reconstructed by the AE than real images, allowing for a simple detection approach based on the reconstruction error. Most importantly, our method is easy to implement and does not require any training, yet nearly matches the performance of detectors that rely on extensive training. We empirically demonstrate that AEROBLADE is effective against state-of-the-art LDMs including Stable Diffusion and Midjourney. Beyond detection, our approach allows for the qualitative analysis of images, which can be leveraged for identifying inpainted regions.

arxiv情報

著者 Jonas Ricker,Denis Lukovnikov,Asja Fischer
発行日 2024-01-31 14:36:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク