Bootstrapping SparseFormers from Vision Foundation Models

要約

最近提案されたSparseFormerアーキテクチャは、ROIを調整することで視覚トークンの数を大幅に減らし、計算コストを大幅に削減しながらも有望な性能を達成することで、視覚理解への代替アプローチを提供する。しかし、SparseFormerをゼロから学習するのはまだ高価であり、パラメータ数をスケールアップするのは困難である。本論文では、シンプルで効率的な方法で、ViTベースの視覚基礎モデルからSparseFormerをブートストラップすることを提案する。SparseFormerブロックの大部分は標準的な変換器であるため、事前に訓練された大規模なビジョン変換器から重みを継承し、可能な限り凍結することができる。そのため、トークンのROIを調整するためにSparseFormer固有の軽量集束変換器を訓練し、最終的なトークン表現を揃えるためにいくつかの初期訓練済みブロックを微調整するだけでよい。このようにして、少ない学習サンプル量(例えばIN-1K)で、ラベルやキャプションなしで、数時間以内に、様々な大規模な事前学習済みモデル(例えばIN-21Kの事前学習済みAugRegやCLIP)からSparseFormerアーキテクチャをブートストラップすることができます。その結果、ブートストラップされたユニモーダルSparseFormer(AugReg-ViT-L/16-384から)は、たった49個のトークンで、IN-1Kで84.9%の精度に達することができ、CLIPsからのマルチモーダルSparseFormerも、ブートストラップ手順中にキャプションを見ることなく、計算コストを大幅に削減し、注目すべきゼロショット性能を示します。さらに、CLIPからブートストラップされたSparseFormerは、単語を見ることなく出力空間を言語に整列させるため、マルチモーダル大規模言語モデルにおける効率的な視覚エンコーダとして機能する。コードとモデルはhttps://github.com/showlab/sparseformer。

要約(オリジナル)

The recently proposed SparseFormer architecture provides an alternative approach to visual understanding by utilizing a significantly lower number of visual tokens via adjusting RoIs, greatly reducing computational costs while still achieving promising performance. However, training SparseFormers from scratch is still expensive, and scaling up the number of parameters can be challenging. In this paper, we propose to bootstrap SparseFormers from ViT-based vision foundation models in a simple and efficient way. Since the majority of SparseFormer blocks are the standard transformer ones, we can inherit weights from large-scale pre-trained vision transformers and freeze them as much as possible. Therefore, we only need to train the SparseFormer-specific lightweight focusing transformer to adjust token RoIs and fine-tune a few early pre-trained blocks to align the final token representation. In such a way, we can bootstrap SparseFormer architectures from various large-scale pre-trained models (e.g., IN-21K pre-trained AugRegs or CLIPs) using a rather smaller amount of training samples (e.g., IN-1K) and without labels or captions within just a few hours. As a result, the bootstrapped unimodal SparseFormer (from AugReg-ViT-L/16-384) can reach 84.9% accuracy on IN-1K with only 49 tokens, and the multimodal SparseFormer from CLIPs also demonstrates notable zero-shot performance with highly reduced computational cost without seeing any caption during the bootstrapping procedure. In addition, CLIP-bootstrapped SparseFormers, which align the output space with language without seeing a word, can serve as efficient vision encoders in multimodal large language models. Code and models are available at https://github.com/showlab/sparseformer

arxiv情報

著者 Ziteng Gao,Zhan Tong,Kevin Qinghong Lin,Joya Chen,Mike Zheng Shou
発行日 2024-04-04 14:40:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク