Collaboration of Pre-trained Models Makes Better Few-shot Learner

要約

数ショット分類では、深層神経回路網が限られた学習画像のみから汎化表現を学習する必要があり、低データ領域では困難であるが重要である。近年、CLIPを用いた手法では、言語と画像の対比による事前学習により、有望な少数ショット性能を示すようになった。このような背景のもと、我々は、大規模な事前学習により、少数ショットデータの不足を緩和し、事前学習された知識によって表現学習を支援することができるかどうかを検討する。本論文では、より良い少数ショット学習のために、様々な事前学習パラダイムの多様な事前知識を組み込んだ事前学習モデル群(CoMo)を提案する。CoMoには以下のものが含まれる。CoMoは、CLIPの言語対照知識、DINOの視覚対照知識、DALL-Eの言語生成知識を含んでいます。具体的には、CoMoは少数ショットデータの拡張と多様な知識のアンサンブルの2つの側面で機能します。1つは、ゼロショットDALL-Eによって合成画像を生成し、人手をかけずに少数ショット学習データを充実させることです。もう一つは、学習可能な多知識アダプタ(MK-Adapter)を導入し、CLIPとDINOの予測値を適応的に融合させることである。このような連携により、CoMoは異なる事前学習手法のポテンシャルを十分に引き出し、それらを統合することで、数発分類において最先端の性能を発揮することができる。我々は、11のデータセットに対して広範な実験を行い、本アプローチの優位性と汎化能力を実証する。

要約(オリジナル)

Few-shot classification requires deep neural networks to learn generalized representations only from limited training images, which is challenging but significant in low-data regimes. Recently, CLIP-based methods have shown promising few-shot performance benefited from the contrastive language-image pre-training. Based on this point, we question if the large-scale pre-training can alleviate the few-shot data deficiency and also assist the representation learning by the pre-learned knowledge. In this paper, we propose CoMo, a Collaboration of pre-trained Models that incorporates diverse prior knowledge from various pre-training paradigms for better few-shot learning. Our CoMo includes: CLIP’s language-contrastive knowledge, DINO’s vision-contrastive knowledge, and DALL-E’s language-generative knowledge. Specifically, CoMo works in two aspects: few-shot data expansion and diverse knowledge ensemble. For one, we generate synthetic images via zero-shot DALL-E to enrich the few-shot training data without any manpower. For the other, we introduce a learnable Multi-Knowledge Adapter (MK-Adapter) to adaptively blend the predictions from CLIP and DINO. By such collaboration, CoMo can fully unleash the potential of different pre-training methods and unify them to perform state-of-the-art for few-shot classification. We conduct extensive experiments on 11 datasets to demonstrate the superiority and generalization ability of our approach.

arxiv情報

著者 Renrui Zhang,Bohao Li,Wei Zhang,Hao Dong,Hongsheng Li,Peng Gao,Yu Qiao
発行日 2022-11-07 09:30:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク