Your Diffusion Model is Secretly a Zero-Shot Classifier

要約

最近の大規模なテキストから画像への拡散モデルの波により、テキストベースの画像生成能力が劇的に向上しました。
これらのモデルは、驚くほど多様なプロンプトに対してリアルな画像を生成し、印象的な構成の一般化能力を発揮できます。
これまでのほとんどすべてのユースケースは、サンプリングのみに焦点を当てていました。
ただし、拡散モデルは条件付きの密度推定も提供できます。これは、画像生成以外のタスクに役立ちます。
このホワイト ペーパーでは、Stable Diffusion などの大規模なテキストから画像への拡散モデルからの密度推定値を活用して、追加のトレーニングなしでゼロ ショット分類を実行できることを示します。
分類に対する私たちの生成的アプローチは、さまざまなベンチマークで強力な結果を達成し、拡散モデルから知識を抽出する代替方法よりも優れています。
また、拡散ベースのアプローチには、競合する対照的なアプローチよりも強力なマルチモーダル関係推論能力があることもわかりました。
最後に、ImageNet でトレーニングされた拡散モデルを評価し、同じデータセットでトレーニングされた SOTA 識別分類器のパフォーマンスに近づくことを発見しました。
https://diffusion-classifier.github.io/ での結果と視覚化

要約(オリジナル)

The recent wave of large-scale text-to-image diffusion models has dramatically increased our text-based image generation abilities. These models can generate realistic images for a staggering variety of prompts and exhibit impressive compositional generalization abilities. Almost all use cases thus far have solely focused on sampling; however, diffusion models can also provide conditional density estimates, which are useful for tasks beyond image generation. In this paper, we show that the density estimates from large-scale text-to-image diffusion models like Stable Diffusion can be leveraged to perform zero-shot classification without any additional training. Our generative approach to classification attains strong results on a variety of benchmarks and outperforms alternative methods of extracting knowledge from diffusion models. We also find that our diffusion-based approach has stronger multimodal relational reasoning abilities than competing contrastive approaches. Finally, we evaluate diffusion models trained on ImageNet and find that they approach the performance of SOTA discriminative classifiers trained on the same dataset, even with weak augmentations and no regularization. Results and visualizations at https://diffusion-classifier.github.io/

arxiv情報

著者 Alexander C. Li,Mihir Prabhudesai,Shivam Duggal,Ellis Brown,Deepak Pathak
発行日 2023-03-28 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE, cs.RO パーマリンク