Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners

要約

低データ領域での視覚認識には、限られた学習サンプルから一般化された表現を学習するディープニューラルネットワークが必要です。近年、CLIPを用いた手法では、言語と画像の対照的な事前学習により、有望な少数ショット学習が可能であることが示されています。そこで、より多様な事前学習知識をカスケード接続することで、数ショット画像表現学習をさらに支援することができないかと考えています。本論文では、様々な事前学習パラダイムの多様な事前知識を組み込んだCaFo(Cascade of Foundation models)を提案し、より良い少数点学習ができるようにする。CaFoは、CLIPの言語対照知識、DINOの視覚対照知識、DALL-Eの視覚再生知識、GPT-3の言語再生知識を取り込んでいる。具体的には、CaFoは「プロンプト→生成→キャッシュ」で動作します。まず、GPT-3を活用して、CLIPにプロンプトを出すためのテキスト入力を、下流の言語的意味づけを豊かにして生成します。次に、DALL-Eを用いて合成画像を生成し、少ない撮影データで人手をかけずに学習データを拡張します。最後に、学習可能なキャッシュモデルを導入し、CLIPとDINOからの予測値を適応的にブレンドする。このようなコラボレーションにより、CaFoは、異なる事前学習方法の可能性を十分に引き出し、それらを統合することで、少数撮影の分類において最先端の性能を発揮することができます。コードは https://github.com/ZrrSkywalker/CaFo で公開されています。

要約(オリジナル)

Visual recognition in low-data regimes requires deep neural networks to learn generalized representations from limited training samples. Recently, CLIP-based methods have shown promising few-shot performance benefited from the contrastive language-image pre-training. We then question, if the more diverse pre-training knowledge can be cascaded to further assist few-shot representation learning. In this paper, we propose CaFo, a Cascade of Foundation models that incorporates diverse prior knowledge of various pre-training paradigms for better few-shot learning. Our CaFo incorporates CLIP’s language-contrastive knowledge, DINO’s vision-contrastive knowledge, DALL-E’s vision-generative knowledge, and GPT-3’s language-generative knowledge. Specifically, CaFo works by ‘Prompt, Generate, then Cache’. Firstly, we leverage GPT-3 to produce textual inputs for prompting CLIP with rich downstream linguistic semantics. Then, we generate synthetic images via DALL-E to expand the few-shot training data without any manpower. At last, we introduce a learnable cache model to adaptively blend the predictions from CLIP and DINO. By such collaboration, CaFo can fully unleash the potential of different pre-training methods and unify them to perform state-of-the-art for few-shot classification. Code is available at https://github.com/ZrrSkywalker/CaFo.

arxiv情報

著者 Renrui Zhang,Xiangfei Hu,Bohao Li,Siyuan Huang,Hanqiu Deng,Hongsheng Li,Yu Qiao,Peng Gao
発行日 2023-03-03 18:58:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク