要約
合成顔画像の検出に関する実験的研究を紹介します。
私たちは、最近の拡散モデルを含む 5 つの偽の顔画像ジェネレーターの FF5 と呼ばれるデータセットを収集しました。
特定の画像ジェネレーターでトレーニングされた単純なモデルが、合成画像と実際の画像を分離する際にほぼ完璧な精度を達成できることがわかりました。
このモデルは、データ拡張を使用して一般的な画像の歪み (解像度の低下、圧縮) を処理します。
さらに、修復によって合成画像が実際の画像にブレンドされる部分的な操作が特定され、YOLO アーキテクチャの単純なモデルによって操作の領域が特定されます。
ただし、このモデルは敵対的な攻撃に対して脆弱であることが判明し、目に見えないジェネレーターには一般化できません。
新しいジェネレーターによって生成された画像を検出する一般化の失敗は、StabilityAI の安定拡散画像ジェネレーターの微調整バージョンである Realistic Vision でテストした最近の最先端の方法でも発生します。
要約(オリジナル)
An experimental study on detecting synthetic face images is presented. We collected a dataset, called FF5, of five fake face image generators, including recent diffusion models. We find that a simple model trained on a specific image generator can achieve near-perfect accuracy in separating synthetic and real images. The model handles common image distortions (reduced resolution, compression) by using data augmentation. Moreover, partial manipulations, where synthetic images are blended into real ones by inpainting, are identified and the area of the manipulation is localized by a simple model of YOLO architecture. However, the model turned out to be vulnerable to adversarial attacks and does not generalize to unseen generators. Failure to generalize to detect images produced by a newer generator also occurs for recent state-of-the-art methods, which we tested on Realistic Vision, a fine-tuned version of StabilityAI’s Stable Diffusion image generator.
arxiv情報
著者 | Nela Petrzelkova,Jan Cech |
発行日 | 2024-06-25 13:34:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google