LiT: Zero-Shot Transfer with Locked-image text Tuning

要約

このホワイトペーパーでは、コントラストチューニングを紹介します。これは、コントラストトレーニングを使用して、事前トレーニングを活用しながら画像モデルとテキストモデルを位置合わせする簡単な方法です。
私たちの経験的研究では、ロックされた事前トレーニング済みの画像モデルとロックされていないテキストモデルが最適であることがわかりました。
この対照的な調整のインスタンスを「ロックされた画像の調整」(LiT)と呼びます。これは、新しいタスクのために事前にトレーニングされた画像モデルから適切な表現を読み取るためのテキストモデルを教えるだけです。
LiTモデルは、画像の分類や検索などの新しいビジョンタスクへのゼロショット転送の機能を獲得します。
提案されたLiTは広く適用可能です。
3つの異なる画像テキストデータセットを使用して、複数の事前トレーニング方法(教師ありおよび教師なし)およびさまざまなアーキテクチャ(ResNet、Vision Transformers、およびMLP-Mixer)で確実に機能します。
変圧器ベースの事前トレーニング済みViT-g/14モデルを使用すると、LiTモデルはImageNetテストセットで85.2%のゼロショット転送精度を達成し、困難な配布外ObjectNetテストセットで82.5%を達成します。

要約(オリジナル)

This paper presents contrastive-tuning, a simple method employing contrastive training to align image and text models while still taking advantage of their pre-training. In our empirical study we find that locked pre-trained image models with unlocked text models work best. We call this instance of contrastive-tuning ‘Locked-image Tuning’ (LiT), which just teaches a text model to read out good representations from a pre-trained image model for new tasks. A LiT model gains the capability of zero-shot transfer to new vision tasks, such as image classification or retrieval. The proposed LiT is widely applicable; it works reliably with multiple pre-training methods (supervised and unsupervised) and across diverse architectures (ResNet, Vision Transformers and MLP-Mixer) using three different image-text datasets. With the transformer-based pre-trained ViT-g/14 model, the LiT model achieves 85.2% zero-shot transfer accuracy on the ImageNet test set, and 82.5% on the challenging out-of-distribution ObjectNet test set.

arxiv情報

著者 Xiaohua Zhai,Xiao Wang,Basil Mustafa,Andreas Steiner,Daniel Keysers,Alexander Kolesnikov,Lucas Beyer
発行日 2022-06-22 14:43:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク