ViTamin: Designing Scalable Vision Models in the Vision-Language Era

要約

ビジョン言語モデル (VLM) における最近の進歩により、ビジョン コミュニティに新しいページが始まりました。
VLM は、大規模なインターネット画像とテキストのペアでのトレーニングのおかげで、ImageNet で事前トレーニングされたモデルに比べて、より強力で一般化可能な特徴の埋め込みを提供します。
ただし、VLM の驚くべき成果にもかかわらず、バニラ ビジョン トランスフォーマー (ViT) は依然として画像エンコーダーのデフォルトの選択肢です。
純粋なトランスフォーマーはテキスト エンコード領域でその有効性を証明していますが、特に ImageNet ベンチマークでさまざまなタイプのネットワークが提案されており、残念ながら VLM ではほとんど研究されていないことを考慮すると、画像エンコードにも当てはまるかどうかは疑問が残ります。
データ/モデルの規模が小さいため、ImageNet でのモデル設計の元の結論は限定され、偏っている可能性があります。
本論文では、対照的言語イメージ事前学習(CLIP)フレームワークの下で、視覚言語時代の視覚モデルの評価プロトコルを構築することを目的としている。
当社は、さまざまなビジョン モデルのベンチマークを行うための包括的な方法を提供し、モデルとトレーニング データ サイズの両方におけるゼロショット パフォーマンスとスケーラビリティをカバーします。
この目的を達成するために、VLM 向けに調整された新しいビジョン モデルである ViTamin を紹介します。
同じ公開されている DataComp-1B データセットと同じ OpenCLIP トレーニング スキームを使用した場合、ViTamin-L は、ImageNet ゼロショット精度 2.0% で ViT-L を大幅に上回ります。
ViTamin-L は、分類、検索、オープン語彙の検出とセグメンテーション、大規模なマルチモーダル モデルを含む 60 の多様なベンチマークで有望な結果を示しています。
モデル サイズをさらにスケールアップすると、パラメータがわずか 4 億 3,600 万個の ViTamin-XL は ImageNet ゼロショット精度 82.9% を達成し、10 倍のパラメータ (4.4B) を持つ EVA-E で達成される 82.0% を上回ります。

要約(オリジナル)

Recent breakthroughs in vision-language models (VLMs) start a new page in the vision community. The VLMs provide stronger and more generalizable feature embeddings compared to those from ImageNet-pretrained models, thanks to the training on the large-scale Internet image-text pairs. However, despite the amazing achievement from the VLMs, vanilla Vision Transformers (ViTs) remain the default choice for the image encoder. Although pure transformer proves its effectiveness in the text encoding area, it remains questionable whether it is also the case for image encoding, especially considering that various types of networks are proposed on the ImageNet benchmark, which, unfortunately, are rarely studied in VLMs. Due to small data/model scale, the original conclusions of model design on ImageNet can be limited and biased. In this paper, we aim at building an evaluation protocol of vision models in the vision-language era under the contrastive language-image pretraining (CLIP) framework. We provide a comprehensive way to benchmark different vision models, covering their zero-shot performance and scalability in both model and training data sizes. To this end, we introduce ViTamin, a new vision models tailored for VLMs. ViTamin-L significantly outperforms ViT-L by 2.0% ImageNet zero-shot accuracy, when using the same publicly available DataComp-1B dataset and the same OpenCLIP training scheme. ViTamin-L presents promising results on 60 diverse benchmarks, including classification, retrieval, open-vocabulary detection and segmentation, and large multi-modal models. When further scaling up the model size, our ViTamin-XL with only 436M parameters attains 82.9% ImageNet zero-shot accuracy, surpassing 82.0% achieved by EVA-E that has ten times more parameters (4.4B).

arxiv情報

著者 Jienneg Chen,Qihang Yu,Xiaohui Shen,Alan Yuille,Liang-Chieh Chen
発行日 2024-04-02 17:40:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク