要約
CLIP などの対照的な画像テキスト モデルは、多くの最先端システムの構成要素を形成します。
彼らは一般的な一般的な概念を認識することに優れていますが、まれであるか、トレーニング前のデータセットにさえ存在しない、きめの細かいエンティティについては依然として苦労しています。
したがって、彼らの成功の重要な要素は、事前トレーニング段階で記憶できる一連の概念を拡張することを目的とした、大規模に厳選された事前トレーニング データの使用でした。
この研究では、詳細な知識をモデルのパラメーターに直接エンコードする代わりに、外部メモリからこの知識を取得するようにモデルをトレーニングします。
具体的には、既存のビジョンテキストモデルに、推論時にメモリからクロスモーダルに取得した情報を使用して埋め込みを改良する機能を装備し、ゼロショット予測を大幅に改善することを提案します。
注目すべきことに、凍結した CLIP の上にある軽量の単層融合トランスを使用してこれが実行できることを示しました。
私たちの実験では、検索強化コントラスト (RECO) トレーニングにより、いくつかの困難で細かい粒度のタスクで CLIP パフォーマンスが大幅に向上することが検証されました。たとえば、Stanford Cars では +10.9、CUB-2011 では +10.2、最近の OVEN ベンチマークでは +7.3 です。
要約(オリジナル)
Contrastive image-text models such as CLIP form the building blocks of many state-of-the-art systems. While they excel at recognizing common generic concepts, they still struggle on fine-grained entities which are rare, or even absent from the pre-training dataset. Hence, a key ingredient to their success has been the use of large-scale curated pre-training data aiming at expanding the set of concepts that they can memorize during the pre-training stage. In this work, we explore an alternative to encoding fine-grained knowledge directly into the model’s parameters: we instead train the model to retrieve this knowledge from an external memory. Specifically, we propose to equip existing vision-text models with the ability to refine their embedding with cross-modal retrieved information from a memory at inference time, which greatly improves their zero-shot predictions. Remarkably, we show that this can be done with a light-weight, single-layer, fusion transformer on top of a frozen CLIP. Our experiments validate that our retrieval-enhanced contrastive (RECO) training improves CLIP performance substantially on several challenging fine-grained tasks: for example +10.9 on Stanford Cars, +10.2 on CUB-2011 and +7.3 on the recent OVEN benchmark.
arxiv情報
| 著者 | Ahmet Iscen,Mathilde Caron,Alireza Fathi,Cordelia Schmid | 
| 発行日 | 2023-06-12 15:52:02+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
