要約
生成モデルが急速に普及しているため、汎用の偽画像検出器の必要性が高まっています。
この作業では、最初に、本物と偽物の分類のために深いネットワークをトレーニングすることで構成される既存のパラダイムが、GAN 偽造画像を検出するように訓練された場合、新しい種類の生成モデルから偽造画像を検出できないことを示します。
分析の結果、結果として得られる分類子は、画像を偽造するパターンを検出するように非対称に調整されていることがわかりました。
実際のクラスは、トレーニング中にアクセスできないモデルから生成された画像など、偽物ではないものを保持するシンク クラスになります。
この発見に基づいて、学習なしで本物と偽物の分類を実行することを提案します。
つまり、本物の画像と偽の画像を区別するために明示的にトレーニングされていない特徴空間を使用します。
このアイデアのインスタンス化として、最近傍および線形プローブを使用します。
大規模な事前トレーニング済みの視覚言語モデルの特徴空間へのアクセスが与えられた場合、最近傍分類の非常に単純なベースラインは、さまざまな生成モデルから偽の画像を検出する際に驚くほど優れた一般化機能を備えています。
たとえば、目に見えない拡散モデルと自己回帰モデルでテストすると、SoTA が +15.07 mAP および +25.90% acc 改善されます。
要約(オリジナル)
With generative models proliferating at a rapid rate, there is a growing need for general purpose fake image detectors. In this work, we first show that the existing paradigm, which consists of training a deep network for real-vs-fake classification, fails to detect fake images from newer breeds of generative models when trained to detect GAN fake images. Upon analysis, we find that the resulting classifier is asymmetrically tuned to detect patterns that make an image fake. The real class becomes a sink class holding anything that is not fake, including generated images from models not accessible during training. Building upon this discovery, we propose to perform real-vs-fake classification without learning; i.e., using a feature space not explicitly trained to distinguish real from fake images. We use nearest neighbor and linear probing as instantiations of this idea. When given access to the feature space of a large pretrained vision-language model, the very simple baseline of nearest neighbor classification has surprisingly good generalization ability in detecting fake images from a wide variety of generative models; e.g., it improves upon the SoTA by +15.07 mAP and +25.90% acc when tested on unseen diffusion and autoregressive models.
arxiv情報
著者 | Utkarsh Ojha,Yuheng Li,Yong Jae Lee |
発行日 | 2023-02-20 18:59:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google