要約
最近の大規模なテキストから画像への拡散モデルの波により、テキストベースの画像生成能力が劇的に向上しました。
これらのモデルは、驚くほど多様なプロンプトに対して現実的な画像を生成し、印象的な構成一般化能力を発揮できます。
これまでのほぼすべてのユースケースはサンプリングのみに焦点を当てていました。
ただし、拡散モデルは条件付きの密度推定値も提供することができ、これは画像生成以外のタスクにも役立ちます。
この論文では、安定拡散などの大規模なテキストから画像への拡散モデルからの密度推定を利用して、追加のトレーニングなしでゼロショット分類を実行できることを示します。
私たちが拡散分類器と呼ぶ生成的な分類アプローチは、さまざまなベンチマークで優れた結果を達成し、拡散モデルから知識を抽出する代替方法よりも優れたパフォーマンスを発揮します。
ゼロショット認識タスクでは生成的アプローチと識別的アプローチの間にギャップが残っていますが、私たちの拡散ベースのアプローチは、競合する識別的アプローチよりも大幅に強力なマルチモーダル構成推論能力を備えています。
最後に、拡散分類子を使用して、ImageNet でトレーニングされたクラス条件付き拡散モデルから標準分類子を抽出します。
私たちのモデルは、弱い拡張のみを使用して強力な分類パフォーマンスを達成し、分布の変化に対して定性的に優れた「効果的なロバスト性」を示します。
全体として、私たちの結果は、下流のタスクに識別モデルよりも生成モデルを使用するための一歩となります。
結果と視覚化: https://diffusion-classifier.github.io/
要約(オリジナル)
The recent wave of large-scale text-to-image diffusion models has dramatically increased our text-based image generation abilities. These models can generate realistic images for a staggering variety of prompts and exhibit impressive compositional generalization abilities. Almost all use cases thus far have solely focused on sampling; however, diffusion models can also provide conditional density estimates, which are useful for tasks beyond image generation. In this paper, we show that the density estimates from large-scale text-to-image diffusion models like Stable Diffusion can be leveraged to perform zero-shot classification without any additional training. Our generative approach to classification, which we call Diffusion Classifier, attains strong results on a variety of benchmarks and outperforms alternative methods of extracting knowledge from diffusion models. Although a gap remains between generative and discriminative approaches on zero-shot recognition tasks, our diffusion-based approach has significantly stronger multimodal compositional reasoning ability than competing discriminative approaches. Finally, we use Diffusion Classifier to extract standard classifiers from class-conditional diffusion models trained on ImageNet. Our models achieve strong classification performance using only weak augmentations and exhibit qualitatively better ‘effective robustness’ to distribution shift. Overall, our results are a step toward using generative over discriminative models for downstream tasks. Results and visualizations at https://diffusion-classifier.github.io/
arxiv情報
著者 | Alexander C. Li,Mihir Prabhudesai,Shivam Duggal,Ellis Brown,Deepak Pathak |
発行日 | 2023-09-13 01:16:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google