要約
最新のテキストから画像への (T2I) 拡散モデルは、驚くべきリアリズムと創造性を備えた画像を生成できます。
これらの進歩により、偽画像の検出と帰属に関する研究が活発化しましたが、先行研究ではこのタスクの実践的かつ科学的な側面が十分に調査されていませんでした。
画像が 12 台の最先端の T2I ジェネレーターによるものであることに加えて、どの推論段階のハイパーパラメーターと画像の変更が識別できるかについて広範な分析を提供します。
私たちの実験により、初期化シードは、画像生成プロセスにおける他の微妙な変動とともに、ある程度検出可能であることが明らかになりました。
さらに、高周波の詳細を摂動させ、画像のスタイルと構造の中間レベルの表現を採用することにより、画像の帰属にどのような視覚的痕跡が活用されているかを調査します。
特に、高周波情報の変更による精度の低下はわずかであり、スタイル表現でのアトリビュータのトレーニングは、RGB イメージでのトレーニングよりもパフォーマンスが優れています。
私たちの分析は、これまで調査されてきたものよりもさまざまな視覚的粒度レベルで偽画像が検出可能であり、その原因であることが強調されています。
要約(オリジナル)
Modern text-to-image (T2I) diffusion models can generate images with remarkable realism and creativity. These advancements have sparked research in fake image detection and attribution, yet prior studies have not fully explored the practical and scientific dimensions of this task. In addition to attributing images to 12 state-of-the-art T2I generators, we provide extensive analyses on what inference stage hyperparameters and image modifications are discernible. Our experiments reveal that initialization seeds are highly detectable, along with other subtle variations in the image generation process to some extent. We further investigate what visual traces are leveraged in image attribution by perturbing high-frequency details and employing mid-level representations of image style and structure. Notably, altering high-frequency information causes only slight reductions in accuracy, and training an attributor on style representations outperforms training on RGB images. Our analyses underscore that fake images are detectable and attributable at various levels of visual granularity than previously explored.
arxiv情報
著者 | Katherine Xu,Lingzhi Zhang,Jianbo Shi |
発行日 | 2024-03-28 17:59:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google