Boosting Visual-Language Models by Exploiting Hard Samples

要約

タイトル:色濃いサンプルを活用して視覚言語モデルを強化する

要約:
– 視覚言語モデルはContrastive Language-Image Pre-training (CLIP)などが代表的であり、画像とテキストを照合するための産業規格になっている。
– これらのモデルのゼロショット認識性能を改善するため、現在の研究では追加のウェブクロールされた画像-テキストペアを追加するか、新しいトレーニングロスを設計する方法がある。
– しかし、フロムスクラッチのトレーニングやデータコレクションにかかる追加コストは、展開を大幅に妨げる。
– この論文では、主に元のトレーニングデータに色濃いサンプルをフィンチューニングすることにより、トレーニングされたCLIPモデルのパフォーマンスを向上させる、低コスト戦略であるHELIPを提案する。
– 色濃い例を各バッチに混ぜて、良く訓練されたCLIPモデルは、通常と色濃いネガティブデータの区別に使用する従来のコントラスティブアライメント目的とマージンロスを使用してフィンチューニングされる。
– HELIPは、既存のモデルにプラグアンドプレイ方式で展開される。
– データを追加することなく、包括的なゼロショットおよび検索ベンチマークにおいて、HELIPは既存のモデルを着実に向上させ、主導のパフォーマンスを実現する。
– HELIPは、CC3MおよびCC12MでPretrainされた場合、ImageNetのゼロショット精度をそれぞれ3.05および4.47向上させる。
– CC3Mで事前トレーニングすると、HELIPは、CLIPおよびSLIPのゼロショットパフォーマンスをそれぞれ8.4%および18.6%向上させ、線形プローブパフォーマンスをそれぞれ9.5%および3.0%向上させる、ファイングレインド分類データセットのゼロショットおよび線形プローブ実験の体系的評価がHELIPの効力を検証している。

要約(オリジナル)

Large vision and language models, such as Contrastive Language-Image Pre-training (CLIP), are rapidly becoming the industry norm for matching images and texts. In order to improve its zero-shot recognition performance, current research either adds additional web-crawled image-text pairs or designs new training losses. However, the additional costs associated with training from scratch and data collection substantially hinder their deployment. In this paper, we present HELIP, a low-cost strategy for boosting the performance of well-trained CLIP models by finetuning them with hard samples over original training data. Mixing hard examples into each batch, the well-trained CLIP model is then fine-tuned using the conventional contrastive alignment objective and a margin loss to distinguish between normal and hard negative data. HELIP is deployed in a plug-and-play fashion to existing models. On a comprehensive zero-shot and retrieval benchmark, without training the model from scratch or utilizing additional data, HELIP consistently boosts existing models to achieve leading performance. In particular, HELIP boosts ImageNet zero-shot accuracy of SLIP by 3.05 and 4.47 when pretrained on CC3M and CC12M respectively. In addition, a systematic evaluation of zero-shot and linear probing experiments across fine-grained classification datasets demonstrates a consistent performance improvement and validates the efficacy of HELIP . When pretraining on CC3M, HELIP boosts zero-shot performance of CLIP and SLIP by 8.4\% and 18.6\% on average respectively, and linear probe performance by 9.5\% and 3.0\% on average respectively.

arxiv情報

著者 Haonan Wang,Minbin Huang,Runhui Huang,Lanqing Hong,Hang Xu,Tianyang Hu,Xiaodan Liang,Zhenguo Li
発行日 2023-05-09 07:00:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク