Diversity is Definitely Needed: Improving Model-Agnostic Zero-shot Classification via Stable Diffusion


タイトル:Diversity is Definitely Needed: Improving Model-Agnostic Zero-shot Classification via Stable Diffusion
– Model-Agnostic Zero-Shot Classification(MA-ZSC)の問題を調査する。
– MA-ZSCは、実際の画像をトレーニング中に使用せずに、一般的な分類アーキテクチャ(ダウンストリームモデル)をトレーニングすることを指す。
– 最近の研究では、拡散モデルを使用して合成トレーニング画像を生成することがMA-ZSCに対処する可能性があることを示している。
– しかし、この方法のパフォーマンスは、大規模なビジョン言語モデルで達成されたものよりも劣っている可能性がある。
– 仮説として、合成画像と実際の画像の間に重大なドメインギャップがある可能性がある。
– MA-ZSCのパフォーマンスを改善するために、生成データセットの多様性を高めることができる初期の洞察を提供する。
– 事前にトレーニングされた拡散モデルを使用したテキストからイメージ生成プロセスの一連の変更を提案する。
– 我々の方法は、ResNetやViTなどの様々な分類アーキテクチャで顕著な改善を示し、CLIPなどの最先端のモデルと比較可能な結果を示している。
– CIFAR10、CIFAR100、および衛星画像ドメインのEuroSATで実験を行い、5つの分類アーキテクチャで評価を行った。
– 我々の結果は、拡散モデルを使用したMA-ZSCの問題についての初期の洞察を提供するもので、すべてのコードはGitHubで利用可能である。


In this work, we investigate the problem of Model-Agnostic Zero-Shot Classification (MA-ZSC), which refers to training non-specific classification architectures (downstream models) to classify real images without using any real images during training. Recent research has demonstrated that generating synthetic training images using diffusion models provides a potential solution to address MA-ZSC. However, the performance of this approach currently falls short of that achieved by large-scale vision-language models. One possible explanation is a potential significant domain gap between synthetic and real images. Our work offers a fresh perspective on the problem by providing initial insights that MA-ZSC performance can be improved by improving the diversity of images in the generated dataset. We propose a set of modifications to the text-to-image generation process using a pre-trained diffusion model to enhance diversity, which we refer to as our $\textbf{bag of tricks}$. Our approach shows notable improvements in various classification architectures, with results comparable to state-of-the-art models such as CLIP. To validate our approach, we conduct experiments on CIFAR10, CIFAR100, and EuroSAT, which is particularly difficult for zero-shot classification due to its satellite image domain. We evaluate our approach with five classification architectures, including ResNet and ViT. Our findings provide initial insights into the problem of MA-ZSC using diffusion models. All code will be available on GitHub.


著者 Jordan Shipard,Arnold Wiliem,Kien Nguyen Thanh,Wei Xiang,Clinton Fookes
発行日 2023-04-17 01:00:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: 68T07, cs.AI, cs.CV, I.2 パーマリンク