MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining

要約

このペーパーでは、新しく提案されたマスクされた自己蒸留を対照的な言語イメージの事前トレーニングに組み込んだ、シンプルで効果的なフレームワーク MaskCLIP を紹介します。
マスクされた自己蒸留の核となるアイデアは、完全な画像からマスクされた画像から予測された表現へと表現を抽出することです。
このような法人化には、2 つの重要な利点があります。
第一に、マスクされた自己蒸留は、テキスト関連の表現に焦点を当てた視覚言語対照を補完するローカルパッチ表現学習を対象としています。
機能を整列させるための視覚的なエンコーダーであるため、言語から間接的な監督を受けてローカルのセマンティクスを学習できます。
2 つの利点を検証するための包括的な分析を備えた特別に設計された実験を提供します。
経験的に、MaskCLIP をさまざまな困難なダウンストリーム タスクに適用すると、線形プローブ、微調整、および言語エンコーダーのガイダンスによるゼロ ショット パフォーマンスで優れた結果が得られることが示されています。

要約(オリジナル)

This paper presents a simple yet effective framework MaskCLIP, which incorporates a newly proposed masked self-distillation into contrastive language-image pretraining. The core idea of masked self-distillation is to distill representation from a full image to the representation predicted from a masked image. Such incorporation enjoys two vital benefits. First, masked self-distillation targets local patch representation learning, which is complementary to vision-language contrastive focusing on text-related representation.Second, masked self-distillation is also consistent with vision-language contrastive from the perspective of training objective as both utilize the visual encoder for feature aligning, and thus is able to learn local semantics getting indirect supervision from the language. We provide specially designed experiments with a comprehensive analysis to validate the two benefits. Empirically, we show that MaskCLIP, when applied to various challenging downstream tasks, achieves superior results in linear probing, finetuning as well as the zero-shot performance with the guidance of the language encoder.

arxiv情報

著者 Xiaoyi Dong,Yinglin Zheng,Jianmin Bao,Ting Zhang,Dongdong Chen,Hao Yang,Ming Zeng,Weiming Zhang,Lu Yuan,Dong Chen,Fang Wen,Nenghai Yu
発行日 2022-08-25 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク