要約
このペーパーでは、テキストから画像への拡散モデルによって生成された画像を検出するタスクについて説明します。
これを評価するために、Stable Diffusion と GLIDE という 2 つの最先端モデルを使用して、MSCOCO および Wikimedia データセットのキャプションから生成された画像を検討します。
私たちの実験では、CLIP または従来の畳み込みニューラル ネットワーク (CNN) によって抽出された特徴から始めて、単純な多層パーセプトロン (MLP) を使用して生成された画像を検出できることが示されています。
また、Stable Diffusion によって生成された画像でトレーニングされたモデルは、GLIDE によって生成された画像を比較的うまく検出できることもわかりましたが、その逆は当てはまりません。
最後に、関連するテキスト情報を画像に組み込んでも、検出結果が大幅に改善されることはめったにありませんが、画像に描かれている被写体の種類がパフォーマンスに大きな影響を与える可能性があることがわかりました。
この作業は、生成された画像を検出する可能性についての洞察を提供し、実際のアプリケーションにおけるセキュリティとプライバシーの問題に影響を与えます。
要約(オリジナル)
This paper explores the task of detecting images generated by text-to-image diffusion models. To evaluate this, we consider images generated from captions in the MSCOCO and Wikimedia datasets using two state-of-the-art models: Stable Diffusion and GLIDE. Our experiments show that it is possible to detect the generated images using simple Multi-Layer Perceptrons (MLPs), starting from features extracted by CLIP, or traditional Convolutional Neural Networks (CNNs). We also observe that models trained on images generated by Stable Diffusion can detect images generated by GLIDE relatively well, however, the reverse is not true. Lastly, we find that incorporating the associated textual information with the images rarely leads to significant improvement in detection results but that the type of subject depicted in the image can have a significant impact on performance. This work provides insights into the feasibility of detecting generated images, and has implications for security and privacy concerns in real-world applications.
arxiv情報
| 著者 | Davide Alessandro Coccomini,Andrea Esuli,Fabrizio Falchi,Claudio Gennaro,Giuseppe Amato | 
| 発行日 | 2023-03-09 14:14:29+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
