Prototypical Contrastive Language Image Pretraining

要約

対照的な言語画像の事前トレーニング(CLIP)は、学習した表現をさまざまなダウンストリームタスクに適切に転送できるため、広く注目されました。
CLIPトレーニング中、InfoNCEの目的は、ポジティブな画像とテキストのペアを揃え、ネガティブなペアを分離することを目的としています。
このホワイトペーパーでは、このプロセス中の表現のグループ化効果を示します。InfoNCEの目的は、ランダムに出現するモーダル内アンカーを介して、意味的に類似した表現を間接的にグループ化します。
Prototypical Contrastive Language Image Pretraining(ProtoCLIP)を導入して、効率を高め、モダリティギャップに対する堅牢性を高めることで、このようなグループ化を強化します。
具体的には、ProtoCLIPは、画像とテキストスペースの間にプロトタイプレベルの識別を設定し、より高いレベルの構造知識を効率的に転送します。
さらに、Prototypical Back Translation(PBT)を提案して、表現のグループ化を表現の配置から切り離し、大きなモダリティギャップの下で意味のある表現を効果的に学習します。
PBTを使用すると、より豊富な事前知識を持つ外部の教師を追加することもできます。
ProtoCLIPは、オンラインの一時的なトレーニング戦略でトレーニングされており、無制限の量のデータにスケールアップできます。
上記の斬新なデザインを組み合わせて、概念キャプションでProtoCLIPをトレーニングし、+ 5.81%のImageNet線形プロービングの改善と+ 2.01%のImageNetゼロショット分類の改善を達成しました。
コードはhttps://github.com/megvii-research/protoclipで入手できます。

要約(オリジナル)

Contrastive Language Image Pretraining (CLIP) received widespread attention since its learned representations can be transferred well to various downstream tasks. During CLIP training, the InfoNCE objective aims to align positive image-text pairs and separate negative ones. In this paper, we show a representation grouping effect during this process: the InfoNCE objective indirectly groups semantically similar representations together via randomly emerged within-modal anchors. We introduce Prototypical Contrastive Language Image Pretraining (ProtoCLIP) to enhance such grouping by boosting its efficiency and increasing its robustness against modality gap. Specifically, ProtoCLIP sets up prototype-level discrimination between image and text spaces, which efficiently transfers higher-level structural knowledge. We further propose Prototypical Back Translation (PBT) to decouple representation grouping from representation alignment, resulting in effective learning of meaningful representations under large modality gap. PBT also enables us to introduce additional external teachers with richer prior knowledge. ProtoCLIP is trained with an online episodic training strategy, which makes it can be scaled up to unlimited amounts of data. Combining the above novel designs, we train our ProtoCLIP on Conceptual Captions and achieved an +5.81% ImageNet linear probing improvement and an +2.01% ImageNet zero-shot classification improvement. Codes are available at https://github.com/megvii-research/protoclip.

arxiv情報

著者 Delong Chen,Zhao Wu,Fan Liu,Zaiquan Yang,Yixiang Huang,Yiping Bao,Erjin Zhou
発行日 2022-06-22 11:55:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク