要約
大規模なテキストコーパスでのネクストトークン予測を使用した言語モデルの事前トレーニングにより、生成的言語タスクと識別的言語タスクの両方で、驚異的なゼロショット、少数ショット、転送学習、およびマルチタスク機能が提供されました。
この成功に動機付けられて、ラスタライズされた画像トークンを自動回帰的に予測するためにTransformerを事前トレーニングすることを含むベクトル量子化画像モデリング(VIM)アプローチを検討します。
個別の画像トークンは、学習したVision-TransformerベースのVQGAN(ViT-VQGAN)からエンコードされます。
最初に、アーキテクチャからコードブック学習まで、バニラVQGANに対する複数の改善を提案し、効率と再構築の忠実度を向上させます。
改善されたViT-VQGANは、無条件のクラス条件付き画像生成や教師なし表現学習など、ベクトル量子化画像モデリングタスクをさらに改善します。
ImageNetで\(256 \ times256 \)解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のフレシェインセプション距離(FID)を達成します。これは、ISで70.6と17.04を取得するバニラVQGANよりも劇的に改善されています。
それぞれとFID。
ViT-VQGANと教師なし事前トレーニングに基づいて、Image GPT(iGPT)と同様に、中間機能を平均化することにより、事前トレーニングされたTransformerをさらに評価します。
このImageNetで事前トレーニングされたVIM-Lは、同様のモデルサイズで60.3%から73.2%の線形プローブ精度でiGPT-Lを大幅に上回っています。
VIM-Lは、追加のWeb画像データとより大きなモデルサイズでトレーニングされたiGPT-XLよりも優れています。
要約(オリジナル)
Pretraining language models with next-token prediction on massive text corpora has delivered phenomenal zero-shot, few-shot, transfer learning and multi-tasking capabilities on both generative and discriminative language tasks. Motivated by this success, we explore a Vector-quantized Image Modeling (VIM) approach that involves pretraining a Transformer to predict rasterized image tokens autoregressively. The discrete image tokens are encoded from a learned Vision-Transformer-based VQGAN (ViT-VQGAN). We first propose multiple improvements over vanilla VQGAN from architecture to codebook learning, yielding better efficiency and reconstruction fidelity. The improved ViT-VQGAN further improves vector-quantized image modeling tasks, including unconditional, class-conditioned image generation and unsupervised representation learning. When trained on ImageNet at \(256\times256\) resolution, we achieve Inception Score (IS) of 175.1 and Fr’echet Inception Distance (FID) of 4.17, a dramatic improvement over the vanilla VQGAN, which obtains 70.6 and 17.04 for IS and FID, respectively. Based on ViT-VQGAN and unsupervised pretraining, we further evaluate the pretrained Transformer by averaging intermediate features, similar to Image GPT (iGPT). This ImageNet-pretrained VIM-L significantly beats iGPT-L on linear-probe accuracy from 60.3% to 73.2% for a similar model size. VIM-L also outperforms iGPT-XL which is trained with extra web image data and larger model size.
arxiv情報
著者 | Jiahui Yu,Xin Li,Jing Yu Koh,Han Zhang,Ruoming Pang,James Qin,Alexander Ku,Yuanzhong Xu,Jason Baldridge,Yonghui Wu |
発行日 | 2022-06-05 01:57:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google