Is a Caption Worth a Thousand Images? A Controlled Study for Representation Learning

要約

CLIPの開発[Radfordetal。、2021]は、言語の監視が従来の画像のみの方法よりも転送可能な表現を備えたビジョンモデルをもたらすことができるかどうかについての議論を引き起こしました。
私たちの仕事は、下流の分類タスクに一般化する表現を学習する能力の観点から、2つのアプローチの注意深く制御された比較を通じてこの質問を研究します。
事前トレーニングデータセットが特定の基準を満たしている場合(十分に大きく、変動性の低い説明的なキャプションが含まれている場合)、画像のみの方法は、より多くの画像データでトレーニングされている場合でも、CLIPの転送パフォーマンスと一致しません。
ただし、予想に反して、これらの基準が満たされない実際的な設定があり、キャプションによる追加の監視は実際には有害です。
私たちの調査結果に動機付けられて、CLIPが既存の事前トレーニングデータセットに存在する言語情報をより有効に活用できるように、簡単な処方箋を考案します。

要約(オリジナル)

The development of CLIP [Radford et al., 2021] has sparked a debate on whether language supervision can result in vision models with more transferable representations than traditional image-only methods. Our work studies this question through a carefully controlled comparison of two approaches in terms of their ability to learn representations that generalize to downstream classification tasks. We find that when the pre-training dataset meets certain criteria — it is sufficiently large and contains descriptive captions with low variability — image-only methods do not match CLIP’s transfer performance, even when they are trained with more image data. However, contrary to what one might expect, there are practical settings in which these criteria are not met, wherein added supervision through captions is actually detrimental. Motivated by our findings, we devise simple prescriptions to enable CLIP to better leverage the language information present in existing pre-training datasets.

arxiv情報

著者 Shibani Santurkar,Yann Dubois,Rohan Taori,Percy Liang,Tatsunori Hashimoto
発行日 2022-07-15 17:50:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, stat.ML パーマリンク