Less is More: Removing Text-regions Improves CLIP Training Efficiency and Robustness

要約

タイトル: テキスト領域の削除は、CLIPトレーニングの効率と頑強性を改善する

要約:
– CLIPモデルは、多くのアプリケーションの中で主流となっており、その変種も同様です。
– しかし、何億もの画像テキストペアからCLIPモデルをトレーニングすることは、非常に高価です。
– さらに、従来のCLIPモデルでは、画像に埋め込まれたテキスト領域の視覚的意味と意味を区別しません。
– これにより、埋め込まれた領域のテキストが画像の視覚的外観と一致しない場合、非頑健性を引き起こす可能性があります。
– この論文では、トレーニングの効率と頑健性を改善するための2つの効果的なアプローチについて説明しています。1つは、同じ最適化ステップ数を維持しながらトレーニングデータセットを拡張すること、もう1つは、画像にテキスト領域を含まないサンプルをフィルタリングすることです。
– そうすることで、ImageNetやCoCoのような公共のベンチマークで、分類と検索の精度が大幅に向上しました。
– テキスト領域を持つ画像をフィルタリングすることにより、モデルをタイポグラフィ攻撃から保護することもできます。
– このため、ImageNet with Adversarial Text Regions (ImageNet-Attr)という新しいデータセットを作成し、フィルタリングベースのCLIPモデルを実現しました。
– その結果、モデルのトップ1の精度は68.78\%で、これまでのモデルよりも優秀でした。

要約(オリジナル)

The CLIP (Contrastive Language-Image Pre-training) model and its variants are becoming the de facto backbone in many applications. However, training a CLIP model from hundreds of millions of image-text pairs can be prohibitively expensive. Furthermore, the conventional CLIP model doesn’t differentiate between the visual semantics and meaning of text regions embedded in images. This can lead to non-robustness when the text in the embedded region doesn’t match the image’s visual appearance. In this paper, we discuss two effective approaches to improve the efficiency and robustness of CLIP training: (1) augmenting the training dataset while maintaining the same number of optimization steps, and (2) filtering out samples that contain text regions in the image. By doing so, we significantly improve the classification and retrieval accuracy on public benchmarks like ImageNet and CoCo. Filtering out images with text regions also protects the model from typographic attacks. To verify this, we build a new dataset named ImageNet with Adversarial Text Regions (ImageNet-Attr). Our filter-based CLIP model demonstrates a top-1 accuracy of 68.78\%, outperforming previous models whose accuracy was all below 50\%.

arxiv情報

著者 Liangliang Cao,Bowen Zhang,Chen Chen,Yinfei Yang,Xianzhi Du,Wencong Zhang,Zhiyun Lu,Yantao Zheng
発行日 2023-05-08 23:47:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク