CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP

要約

CLIPはゼロショット転送学習タスクで素晴らしい結果を出し、BERTやGPT3のような基礎モデルとして考えられています。豊富な表現を持つCLIPビジョンモデルは、特定のタスクで微調整を行う前に、InfoNCEの目的語と自然言語によるスーパービジョンを使って事前に学習されます。CLIPはゼロショット転送学習に優れていますが、1つまたはいくつかの特徴に焦点を当て、他の関連する特徴を無視するという、説明不要の問題に悩まされています。この問題は、元のマルチモーダルデータにおける共分散構造の抽出が不十分であることに起因している。我々は、現代のホップフィールドネットワークを用いて、説明不要の問題に取り組むことを提案する。その検索された埋め込みは、保存された埋め込みにおける特徴の共起関係から得られる共分散構造がエンリッチされている。しかし、現代のホップフィールドネットワークは、InfoNCEの目的語の飽和効果を増大させ、学習を阻害する。我々は、この飽和効果を緩和するために、InfoLOOB目的語を用いることを提案する。我々は、共分散エンリッチメントのために最新のホップフィールドネットワークとInfoLOOB目標を併用する新しい’Contrastive Leave One Out Boost'(CLOOB)を導入する。実験では、他のデータセットでのゼロショット転送学習性能に関して、Conceptual CaptionsとYFCCデータセットで事前学習した後のCLOOBとCLIPを比較する。CLOOBは、検討した全てのアーキテクチャとデータセットにおいて、ゼロショット転送学習においてCLIPを一貫して上回った。

要約(オリジナル)

CLIP yielded impressive results on zero-shot transfer learning tasks and is considered as a foundation model like BERT or GPT3. CLIP vision models that have a rich representation are pre-trained using the InfoNCE objective and natural language supervision before they are fine-tuned on particular tasks. Though CLIP excels at zero-shot transfer learning, it suffers from an explaining away problem, that is, it focuses on one or few features, while neglecting other relevant features. This problem is caused by insufficiently extracting the covariance structure in the original multi-modal data. We suggest to use modern Hopfield networks to tackle the problem of explaining away. Their retrieved embeddings have an enriched covariance structure derived from co-occurrences of features in the stored embeddings. However, modern Hopfield networks increase the saturation effect of the InfoNCE objective which hampers learning. We propose to use the InfoLOOB objective to mitigate this saturation effect. We introduce the novel ‘Contrastive Leave One Out Boost’ (CLOOB), which uses modern Hopfield networks for covariance enrichment together with the InfoLOOB objective. In experiments we compare CLOOB to CLIP after pre-training on the Conceptual Captions and the YFCC dataset with respect to their zero-shot transfer learning performance on other datasets. CLOOB consistently outperforms CLIP at zero-shot transfer learning across all considered architectures and datasets.

arxiv情報

著者 Andreas Fürst,Elisabeth Rumetshofer,Johannes Lehner,Viet Tran,Fei Tang,Hubert Ramsauer,David Kreil,Michael Kopp,Günter Klambauer,Angela Bitto-Nemling,Sepp Hochreiter
発行日 2022-11-07 13:57:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク