Text-to-Image Diffusion Models are Zero-Shot Classifiers

要約

テキストから画像への拡散モデルの優れた生成能力は、画像からテキストへのデータの有益な表現を学習することを示唆しています。
ただし、それらの表現がどのような知識をキャプチャするかは完全には理解されておらず、下流のタスクで完全に調査されていません.
ゼロショット分類器として拡散モデルを評価する方法を提案することにより、拡散モデルを調査します。
重要なアイデアは、拡散モデルの機能を使用して、そのラベルの可能性のプロキシとしてラベルのテキスト説明が与えられた場合に、ノイズを含む画像のノイズを除去することです。
この方法を Imagen に適用し、それを使用して Imagen の知識の詳細な側面を調査し、それを CLIP のゼロショット機能と比較します。
Imagen は、幅広いゼロショット画像分類データセットで CLIP と競合するパフォーマンスを発揮します。
さらに、形状/テクスチャ バイアス テストで最先端の結果を達成し、CLIP では実行できない属性バインディングを正常に実行できます。
NLP では生成的な事前トレーニングが一般的ですが、ビジュアル ファンデーション モデルでは対照学習などの他の方法がよく使用されます。
私たちの調査結果に基づいて、視覚および視覚言語の問題に対する説得力のある代替手段として、生成的な事前トレーニングを検討する必要があると主張します。

要約(オリジナル)

The excellent generative capabilities of text-to-image diffusion models suggest they learn informative representations of image-text data. However, what knowledge their representations capture is not fully understood, and they have not been thoroughly explored on downstream tasks. We investigate diffusion models by proposing a method for evaluating them as zero-shot classifiers. The key idea is using a diffusion model’s ability to denoise a noised image given a text description of a label as a proxy for that label’s likelihood. We apply our method to Imagen, using it to probe fine-grained aspects of Imagen’s knowledge and comparing it with CLIP’s zero-shot abilities. Imagen performs competitively with CLIP on a wide range of zero-shot image classification datasets. Additionally, it achieves state-of-the-art results on shape/texture bias tests and can successfully perform attribute binding while CLIP cannot. Although generative pre-training is prevalent in NLP, visual foundation models often use other methods such as contrastive learning. Based on our findings, we argue that generative pre-training should be explored as a compelling alternative for vision and vision-language problems.

arxiv情報

著者 Kevin Clark,Priyank Jaini
発行日 2023-03-27 14:15:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク