要約
Contrastive language-image pre-training (CLIP) は、画像とテキストを配置するためのデファクト スタンダードとして機能します。
それにもかかわらず、Web クロールされたデータの画像とテキストの間の相関関係が緩いため、対照的な客観的データが非効率的になり、大きなトレーニング バッチ サイズが必要になります。
この作業では、非対照的な言語イメージの事前トレーニング (nCLIP) の有効性を調査し、視覚的な自己教師ありモデルに見られる優れた特性が現れるかどうかを調べます。
非対照的な目的が表現学習を養う一方で、ゼロショット認識では十分にパフォーマンスが低下することを経験的に観察します。
上記の研究に基づいて、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPをさらに紹介し、nCLIPが機能セマンティクスの強化においてCLIPを支援することを示します。
2 つの目的の相乗効果により、xCLIP はゼロショット転送と表現学習の両方で優れたパフォーマンスを発揮します。
体系的な評価は、ゼロ ショット分類、ドメイン外分類、検索、視覚表現学習、テキスト表現学習など、さまざまなダウンストリーム タスクにわたって実施され、一貫したパフォーマンスの向上を示し、xCLIP の有効性を検証します。
要約(オリジナル)
Contrastive language-image pre-training (CLIP) serves as a de-facto standard to align images and texts. Nonetheless, the loose correlation between images and texts of web-crawled data renders the contrastive objective data inefficient and craving for a large training batch size. In this work, we explore the validity of non-contrastive language-image pre-training (nCLIP), and study whether nice properties exhibited in visual self-supervised models can emerge. We empirically observe that the non-contrastive objective nourishes representation learning while sufficiently underperforming under zero-shot recognition. Based on the above study, we further introduce xCLIP, a multi-tasking framework combining CLIP and nCLIP, and show that nCLIP aids CLIP in enhancing feature semantics. The synergy between two objectives lets xCLIP enjoy the best of both worlds: superior performance in both zero-shot transfer and representation learning. Systematic evaluation is conducted spanning a wide variety of downstream tasks including zero-shot classification, out-of-domain classification, retrieval, visual representation learning, and textual representation learning, showcasing a consistent performance gain and validating the effectiveness of xCLIP.
arxiv情報
著者 | Jinghao Zhou,Li Dong,Zhe Gan,Lijuan Wang,Furu Wei |
発行日 | 2022-10-17 17:57:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google