Rejuvenating image-GPT as Strong Visual Representation Learners

要約

本論文は、視覚表現学習のために次のピクセルを予測する自己回帰的事前学習を導入した先駆的研究の一つであるimage-GPT (iGPT)を強化する。つの単純かつ本質的な変更を加える。第一に、予測対象を生のピクセルから意味的トークンにシフトすることで、より高度な視覚コンテンツの理解を可能にする。第二に、次のトークンだけでなく、目に見えるトークンも予測するようモデルに指示することで、自己回帰モデリングを補う。このパイプラインは、CLIPのような識別的に学習されたモデルによって意味的トークンが符号化される場合に特に効果的である。この新しいアプローチをD-iGPTとして紹介する。広範な実験により、D-iGPTが視覚表現の強力な学習者として優れていることが示された:D-iGPTの特筆すべき成果は、ImageNet-1Kデータセットにおけるその説得力のある性能である。公開されているデータセットで学習することにより、D-iGPTはバニラViT-Largeモデルで89.5%のトップ1精度を達成した。このモデルはまた、下流タスクでの強力な汎化と、分布外のサンプルに対する頑健性を示しています。コードは୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛にあります。

要約(オリジナル)

This paper enhances image-GPT (iGPT), one of the pioneering works that introduce autoregressive pretraining to predict next pixels for visual representation learning. Two simple yet essential changes are made. First, we shift the prediction target from raw pixels to semantic tokens, enabling a higher-level understanding of visual content. Second, we supplement the autoregressive modeling by instructing the model to predict not only the next tokens but also the visible tokens. This pipeline is particularly effective when semantic tokens are encoded by discriminatively trained models, such as CLIP. We introduce this novel approach as D-iGPT. Extensive experiments showcase that D-iGPT excels as a strong learner of visual representations: A notable achievement of D-iGPT is its compelling performance on the ImageNet-1K dataset — by training on publicly available datasets, D-iGPT achieves 89.5\% top-1 accuracy with a vanilla ViT-Large model. This model also shows strong generalization on the downstream task and robustness on out-of-distribution samples. Code is avaiable at \href{https://github.com/OliverRensu/D-iGPT}{https://github.com/OliverRensu/D-iGPT}.

arxiv情報

著者 Sucheng Ren,Zeyu Wang,Hongru Zhu,Junfei Xiao,Alan Yuille,Cihang Xie
発行日 2023-12-04 18:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク