Exploiting Category Names for Few-Shot Classification with Vision-Language Models

要約

タイトル:ビジョン・ランゲージ・モデルによるカテゴリ名の活用による少数派の分類

要約:

– 大規模データで事前学習されたビジョン・ランゲージ・モデルは、多くの視覚理解タスクにおいて強力なツールを提供する。
– ビジョン・ランゲージ・モデルの多くが、2つのエンコーダ(視覚的、テキスト)を構築し、2つのモーダリティーを同じ埋め込み空間にマップできるため、学習された表現は、画像分類のようなゼロショット・パフォーマンスを達成することができる。
– ただし、カテゴリごとに少数の例しかない場合、大規模ビジョン・ランゲージ・モデルの潜在能力が十分に発揮されず、主に大量のパラメータと比較的少量のトレーニングデータとのギャップが原因である。
– この論文は、カテゴリ名を使用して分類ヘッドを初期化することで、少数派の分類のパフォーマンスを大幅に向上させることができることを示している。
– 提案されたカテゴリ名初期化法を用いることで、当該モデルはいくつかの少数派画像分類ベンチマークにおいて、最先端のパフォーマンスを達成する(例えば、ImageNetにおいて87.37%、Stanford Carsにおいて96.08%の5ショット学習を使用した場合)。

要約(オリジナル)

Vision-language foundation models pretrained on large-scale data provide a powerful tool for many visual understanding tasks. Notably, many vision-language models build two encoders (visual and textual) that can map two modalities into the same embedding space. As a result, the learned representations achieve good zero-shot performance on tasks like image classification. However, when there are only a few examples per category, the potential of large vision-language models is often underperformed, mainly due to the gap between a large number of parameters and a relatively small amount of training data. This paper shows that we can significantly improve the performance of few-shot classification by using the category names to initialize the classification head. With the proposed category name initialization method, our model obtains the state-of-the-art performance on a number of few-shot image classification benchmarks (e.g., 87.37% on ImageNet and 96.08% on Stanford Cars, both using five-shot learning).

arxiv情報

著者 Taihong Xiao,Zirui Wang,Liangliang Cao,Jiahui Yu,Shengyang Dai,Ming-Hsuan Yang
発行日 2023-04-18 22:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク