Three Towers: Flexible Contrastive Learning with Pretrained Image Models

要約

事前トレーニングされた画像分類器を組み込むことで、視覚言語モデルの対比学習を改善する柔軟な方法である Three Towers (3T) を紹介します。
対照モデルは通常、最初からトレーニングされますが、LiT (Zhai et al., 2022) は最近、事前トレーニングされた分類器の埋め込みを使用することでパフォーマンスが向上することを示しました。
ただし、LiT はイメージ タワーを凍結された埋め込みで直接置き換え、イメージ タワーを対照的にトレーニングすることによる潜在的な利点を排除します。
3T では、画像タワーが事前トレーニング済みの埋め込みとコントラスト トレーニングの両方からメリットを享受できる、より柔軟な戦略を提案します。
これを達成するために、凍結された事前トレーニング済み埋め込みを含む 3 番目のタワーを導入し、この 3 番目のタワーとメインの画像テキスト タワーの間の位置合わせを奨励します。
経験的に、3T は、LiT および検索タスクの最初からの CLIP スタイルのベースラインよりも一貫して向上しています。
分類に関しては、3T は最初からのベースラインを確実に上回っており、JFT 事前トレーニング モデルでは LiT に比べてパフォーマンスが劣りますが、ImageNet-21k および Places365 事前トレーニングでは LiT を上回ります。

要約(オリジナル)

We introduce Three Towers (3T), a flexible method to improve the contrastive learning of vision-language models by incorporating pretrained image classifiers. While contrastive models are usually trained from scratch, LiT (Zhai et al., 2022) has recently shown performance gains from using pretrained classifier embeddings. However, LiT directly replaces the image tower with the frozen embeddings, excluding any potential benefits of contrastively training the image tower. With 3T, we propose a more flexible strategy that allows the image tower to benefit from both pretrained embeddings and contrastive training. To achieve this, we introduce a third tower that contains the frozen pretrained embeddings, and we encourage alignment between this third tower and the main image-text towers. Empirically, 3T consistently improves over LiT and the CLIP-style from-scratch baseline for retrieval tasks. For classification, 3T reliably improves over the from-scratch baseline, and while it underperforms relative to LiT for JFT-pretrained models, it outperforms LiT for ImageNet-21k and Places365 pretraining.

arxiv情報

著者 Jannik Kossen,Mark Collier,Basil Mustafa,Xiao Wang,Xiaohua Zhai,Lucas Beyer,Andreas Steiner,Jesse Berent,Rodolphe Jenatton,Efi Kokiopoulou
発行日 2023-05-26 14:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク