What does a platypus look like? Generating customized prompts for zero-shot image classification

要約

オープンボキャブラリーモデルは、画像分類のための有望な新パラダイムである。従来の分類モデルとは異なり、オープンボキャブラリーモデルは推論時に自然言語で指定された任意のカテゴリ集合の間で分類を行う。この自然言語は「プロンプト」と呼ばれ、通常、手書きのテンプレート(例:’a photo of a {}’)からなり、それぞれのカテゴリ名で補完される。本研究では、画像領域に関する明示的な知識を用いることなく、また手書きで構成される文の数を大幅に減らし、より精度の高いプロンプトを生成する簡単な方法を導入する。そのために、オープンボキャブラリーモデルと大規模言語モデル(LLM)を組み合わせて、言語モデルによるカスタマイズプロンプト(CuPL、発音は「カップル」)を作成する。特に、LLMに含まれる知識を活用し、各オブジェクトカテゴリにカスタマイズされた多くの説明文を生成する。この単純で一般的なアプローチは、ゼロショット画像分類ベンチマークにおいて精度を向上させ、ImageNetでは1%ポイント以上の向上が見られた。最後に、この方法は追加の学習を必要とせず、完全にゼロショットのままです。コードは https://github.com/sarahpratt/CuPL から入手可能です。

要約(オリジナル)

Open vocabulary models are a promising new paradigm for image classification. Unlike traditional classification models, open vocabulary models classify among any arbitrary set of categories specified with natural language during inference. This natural language, called ‘prompts’, typically consists of a set of hand-written templates (e.g., ‘a photo of a {}’) which are completed with each of the category names. This work introduces a simple method to generate higher accuracy prompts, without using explicit knowledge of the image domain and with far fewer hand-constructed sentences. To achieve this, we combine open vocabulary models with large language models (LLMs) to create Customized Prompts via Language models (CuPL, pronounced ‘couple’). In particular, we leverage the knowledge contained in LLMs in order to generate many descriptive sentences that are customized for each object category. We find that this straightforward and general approach improves accuracy on a range of zero-shot image classification benchmarks, including over one percentage point gain on ImageNet. Finally, this method requires no additional training and remains completely zero-shot. Code is available at https://github.com/sarahpratt/CuPL.

arxiv情報

著者 Sarah Pratt,Rosanne Liu,Ali Farhadi
発行日 2022-09-07 17:27:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク