要約
対照言語イメージ事前トレーニング(CLIP)は、学習された表現が様々な下流タスクにうまく移行できることから、広く注目されています。CLIPの学習において、InfoNCEの目的は、肯定的な画像とテキストのペアを整列させ、否定的なものを分離することである。本論文では、このプロセスにおける表現グルーピング効果を示す。InfoNCEの目的は、ランダムに出現するモーダル内アンカーを介して、意味的に類似した表現を間接的にグループ化するものである。このようなグルーピングを強化するために、プロトタイプ対照言語イメージ事前訓練(ProtoCLIP)を導入し、その効率を高め、モダリティギャップに対する頑健性を向上させる。具体的には、ProtoCLIPは画像空間とテキスト空間の間にプロトタイプレベルの識別を設定し、より高度な構造的知識を効率的に伝達させる。さらに、プロトタイプ逆翻訳(PBT)を提案し、表現のグルーピングと表現のアライメントを切り離すことで、大きなモダリティギャップの下でも意味のある表現を効率的に学習することが可能となる。また、PBTにより、より豊富な事前知識を持つ外部教師を追加で導入することが可能となる。ProtoCLIPはオンラインエピソード学習により学習されるため、無制限のデータ量に拡張可能である。ProtoCLIPを概念キャプションで学習させたところ、ImageNetの線形プロービングで+5.81%、ImageNetのゼロショット分類で+2.01%の改善を達成しました。より大規模なYFCCデータセットでは、ProtoCLIPは4$times$fewer pre-training epochsでCLIPの性能に匹敵します。コードは https://github.com/megvii-research/protoclip で入手可能です。
要約(オリジナル)
Contrastive Language Image Pretraining (CLIP) received widespread attention since its learned representations can be transferred well to various downstream tasks. During CLIP training, the InfoNCE objective aims to align positive image-text pairs and separate negative ones. In this paper, we show a representation grouping effect during this process: the InfoNCE objective indirectly groups semantically similar representations together via randomly emerged within-modal anchors. We introduce Prototypical Contrastive Language Image Pretraining (ProtoCLIP) to enhance such grouping by boosting its efficiency and increasing its robustness against modality gap. Specifically, ProtoCLIP sets up prototype-level discrimination between image and text spaces, which efficiently transfers higher-level structural knowledge. We further propose Prototypical Back Translation (PBT) to decouple representation grouping from representation alignment, resulting in effective learning of meaningful representations under large modality gap. PBT also enables us to introduce additional external teachers with richer prior knowledge. ProtoCLIP is trained with an online episodic training strategy, which makes it can be scaled up to unlimited amounts of data. We train our ProtoCLIP on Conceptual Captions and achieved an +5.81% ImageNet linear probing improvement and an +2.01% ImageNet zero-shot classification improvement. On larger YFCC dataset, ProtoCLIP matches the performance of CLIP with 4$\times$fewer pretraining epochs. Codes are available at https://github.com/megvii-research/protoclip.
arxiv情報
著者 | Delong Chen,Zhao Wu,Fan Liu,Zaiquan Yang,Yixiang Huang,Yiping Bao,Erjin Zhou |
発行日 | 2022-08-11 05:15:15+00:00 |
arxivサイト | arxiv_id(pdf) |