要約
【タイトル】
Img2Vec:トークン多様性の高い教師がマスクされたオートエンコーダーを支援する
【要約】
・深い特徴量を用いたマスクされた画像モデリング(MIM)のための画像からベクトルへのパイプラインImg2Vecを提案する
・MIMの学習ターゲットとして、様々な自己教師モデルのシリーズを用いて画像から特徴量ベクトルに変換する単純なMIMフレームワークを提案する。特徴量抽出器は教師モデルとしても知られている。
・実際には、MIMモデルは高コストなTransformerベースモデル(ViT-Large、307M)よりも、軽いモデル(ResNet-50、26M)によって生成された画像特徴からより多くの利益を得ることが分かった。
・この現象を分析するために、トークンの多様性という特徴を新たに考案し、異なるモデルから生成された特徴の類似性を測定する。トークン多様性は、異なるトークンの特徴の相違を測定する。
・多大な実験と視覚化を通じて、大きなモデルがMIMを改善することは認められるが、高トークン多様性の教師モデルも重要であると仮説を立てる。
・以上の議論に基づいて、Img2Vecは高トークン多様性の教師モデルを採用して画像特徴を生成する。Img2VecはImageNetの未ラベルデータで事前学習し、ViT-B fine-tuningで85.1%のトップ1精度を達成する。さらに、大きなモデル(ViT-LおよびViT-H)でImg2Vecをスケーリングアップすると、それぞれ86.7%および87.5%の精度を得る。COCOで51.8%のmAP、ADE20Kで50.7%のmIoUなど、他のタスクでも最先端の結果を達成する。
・Img2Vecは、優れた総合パフォーマンスを実現するシンプルで効果的なフレームワークであり、深い特徴量MIM学習に適したものである。
要約(オリジナル)
We present a pipeline of Image to Vector (Img2Vec) for masked image modeling (MIM) with deep features. To study which type of deep features is appropriate for MIM as a learning target, we propose a simple MIM framework with serials of well-trained self-supervised models to convert an Image to a feature Vector as the learning target of MIM, where the feature extractor is also known as a teacher model. Surprisingly, we empirically find that an MIM model benefits more from image features generated by some lighter models (e.g., ResNet-50, 26M) than from those by a cumbersome teacher like Transformer-based models (e.g., ViT-Large, 307M). To analyze this remarkable phenomenon, we devise a novel attribute, token diversity, to evaluate the characteristics of generated features from different models. Token diversity measures the feature dissimilarity among different tokens. Through extensive experiments and visualizations, we hypothesize that beyond the acknowledgment that a large model can improve MIM, a high token-diversity of a teacher model is also crucial. Based on the above discussion, Img2Vec adopts a teacher model with high token-diversity to generate image features. Img2Vec pre-trained on ImageNet unlabeled data with ViT-B yields 85.1\% top-1 accuracy on fine-tuning. Moreover, we scale up Img2Vec on larger models, ViT-L and ViT-H, and get $86.7\%$ and $87.5\%$ accuracy respectively. It also achieves state-of-the-art results on other downstream tasks, e.g., 51.8\% mAP on COCO and 50.7\% mIoU on ADE20K. Img2Vec is a simple yet effective framework tailored to deep feature MIM learning, accomplishing superb comprehensive performance on representative vision tasks.
arxiv情報
著者 | Heng Pan,Chenyang Liu,Wenxiao Wang,Li Yuan,Hongfa Wang,Zhifeng Li,Wei Liu |
発行日 | 2023-04-25 03:01:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI