Your Diffusion Model is Secretly a Zero-Shot Classifier

要約

最近の大規模なテキストから画像への拡散モデルの波により、テキストベースの画像生成能力が劇的に向上しました。
これらのモデルは、驚くほど多様なプロンプトに対してリアルな画像を生成し、印象的な構成の一般化能力を発揮できます。
これまでのほとんどすべてのユースケースは、サンプリングのみに焦点を当てていました。
ただし、拡散モデルは条件付きの密度推定も提供できます。これは、画像生成以外のタスクに役立ちます。
このホワイト ペーパーでは、Stable Diffusion のような大規模なテキストから画像への拡散モデルからの密度推定を活用して、追加のトレーニングなしでゼロ ショット分類を実行できることを示します。
私たちが Diffusion Classifier と呼んでいる分類への生成的アプローチは、さまざまなベンチマークで強力な結果を達成し、拡散モデルから知識を抽出する代替方法よりも優れています。
ゼロショット認識タスクに対する生成的アプローチと識別的アプローチの間にはギャップが残っていますが、拡散ベースのアプローチは、競合する識別的アプローチよりも強力なマルチモーダル関係推論能力を持っていることがわかります。
最後に、Diffusion Classifier を使用して、ImageNet でトレーニングされたクラス条件付き拡散モデルから標準分類器を抽出します。
これらのモデルは、弱い増強と正則化なしでトレーニングされていますが、SOTA 識別分類子のパフォーマンスに近づいています。
全体として、私たちの結果は、下流のタスクに識別モデルよりも生成モデルを使用するための一歩です。
https://diffusion-classifier.github.io/ での結果と視覚化

要約(オリジナル)

The recent wave of large-scale text-to-image diffusion models has dramatically increased our text-based image generation abilities. These models can generate realistic images for a staggering variety of prompts and exhibit impressive compositional generalization abilities. Almost all use cases thus far have solely focused on sampling; however, diffusion models can also provide conditional density estimates, which are useful for tasks beyond image generation. In this paper, we show that the density estimates from large-scale text-to-image diffusion models like Stable Diffusion can be leveraged to perform zero-shot classification without any additional training. Our generative approach to classification, which we call Diffusion Classifier, attains strong results on a variety of benchmarks and outperforms alternative methods of extracting knowledge from diffusion models. Although a gap remains between generative and discriminative approaches on zero-shot recognition tasks, we find that our diffusion-based approach has stronger multimodal relational reasoning abilities than competing discriminative approaches. Finally, we use Diffusion Classifier to extract standard classifiers from class-conditional diffusion models trained on ImageNet. Even though these models are trained with weak augmentations and no regularization, they approach the performance of SOTA discriminative classifiers. Overall, our results are a step toward using generative over discriminative models for downstream tasks. Results and visualizations at https://diffusion-classifier.github.io/

arxiv情報

著者 Alexander C. Li,Mihir Prabhudesai,Shivam Duggal,Ellis Brown,Deepak Pathak
発行日 2023-03-29 17:58:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE, cs.RO パーマリンク