Diffusion Models Beat GANs on Image Classification

要約

多くの教師なし学習モデルは、生成または識別のいずれか 1 つのタスク群に焦点を当てていますが、私たちは統一表現学習器、つまり単一の事前トレーニング ステージを使用して両方のタスク群に同時に対処するモデルの可能性を探ります。
私たちは拡散モデルを主な候補として特定します。
拡散モデルは、画像生成、ノイズ除去、修復、超解像度、操作などのための最先端の方法として注目を集めています。このようなモデルには、U-Net をトレーニングしてノイズを繰り返し予測および除去することが含まれます。
モデルは、高忠実度で多様で斬新な画像を合成できます。
U-Net アーキテクチャは、畳み込みベースのアーキテクチャとして、中間特徴マップの形式でさまざまな特徴表現のセットを生成します。
これらの埋め込みには識別情報が含まれており、分類にも利用できるため、ノイズ予測タスクを超えて有用であるという調査結果を示します。
これらの埋め込みを抽出して分類タスクに使用するための最適な方法を探索し、ImageNet 分類タスクで有望な結果を実証します。
特徴の選択とプーリングを注意深く行うことで、拡散モデルは分類タスクに関して BigBiGAN などの同等の生成識別手法よりも優れたパフォーマンスを発揮することがわかりました。
私たちは転移学習領域の拡散モデルを調査し、いくつかのきめの細かい視覚分類データセットでのパフォーマンスを調べます。
これらの埋め込みを、競合するアーキテクチャや分類タスクの事前トレーニングによって生成された埋め込みと比較します。

要約(オリジナル)

While many unsupervised learning models focus on one family of tasks, either generative or discriminative, we explore the possibility of a unified representation learner: a model which uses a single pre-training stage to address both families of tasks simultaneously. We identify diffusion models as a prime candidate. Diffusion models have risen to prominence as a state-of-the-art method for image generation, denoising, inpainting, super-resolution, manipulation, etc. Such models involve training a U-Net to iteratively predict and remove noise, and the resulting model can synthesize high fidelity, diverse, novel images. The U-Net architecture, as a convolution-based architecture, generates a diverse set of feature representations in the form of intermediate feature maps. We present our findings that these embeddings are useful beyond the noise prediction task, as they contain discriminative information and can also be leveraged for classification. We explore optimal methods for extracting and using these embeddings for classification tasks, demonstrating promising results on the ImageNet classification task. We find that with careful feature selection and pooling, diffusion models outperform comparable generative-discriminative methods such as BigBiGAN for classification tasks. We investigate diffusion models in the transfer learning regime, examining their performance on several fine-grained visual classification datasets. We compare these embeddings to those generated by competing architectures and pre-trainings for classification tasks.

arxiv情報

著者 Soumik Mukhopadhyay,Matthew Gwilliam,Vatsal Agarwal,Namitha Padmanabhan,Archana Swaminathan,Srinidhi Hegde,Tianyi Zhou,Abhinav Shrivastava
発行日 2023-07-17 17:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク