要約
我々は、有限語彙から離散トークンの代わりに実数値エントリを持つベクトル列を生成する生成的無限語彙変換器(GIVT)を導入する。1)入力において、有限語彙ルックアップテーブルを入力ベクトルの線形射影で置き換え、2)出力において、logits予測(通常はカテゴリ分布にマップされる)を多変量ガウス混合モデルのパラメータで置き換える。VQ-GANとMaskGITの画像生成パラダイムに触発され、VQ-VAEの離散潜在系列をモデル化するために変換器を使用し、VAEの量子化されていない実数値潜在系列をモデル化するためにGIVTを使用する。GIVTを反復マスクモデリングによるクラス条件付き画像生成に適用した場合、MaskGITと競合する結果を示し、因果モデリングに使用した場合、我々のアプローチはVQ-GANとMaskGITの両方を凌駕する。最後に、UViMフレームワークのVAEベースの変種を用いたパノプティックセグメンテーションと深度推定に我々のアプローチを適用した場合、画像生成以外でも競争力のある結果が得られる。
要約(オリジナル)
We introduce generative infinite-vocabulary transformers (GIVT) which generate vector sequences with real-valued entries, instead of discrete tokens from a finite vocabulary. To this end, we propose two surprisingly simple modifications to decoder-only transformers: 1) at the input, we replace the finite-vocabulary lookup table with a linear projection of the input vectors; and 2) at the output, we replace the logits prediction (usually mapped to a categorical distribution) with the parameters of a multivariate Gaussian mixture model. Inspired by the image-generation paradigm of VQ-GAN and MaskGIT, where transformers are used to model the discrete latent sequences of a VQ-VAE, we use GIVT to model the unquantized real-valued latent sequences of a VAE. When applying GIVT to class-conditional image generation with iterative masked modeling, we show competitive results with MaskGIT, while our approach outperforms both VQ-GAN and MaskGIT when using it for causal modeling. Finally, we obtain competitive results outside of image generation when applying our approach to panoptic segmentation and depth estimation with a VAE-based variant of the UViM framework.
arxiv情報
著者 | Michael Tschannen,Cian Eastwood,Fabian Mentzer |
発行日 | 2023-12-04 18:48:02+00:00 |
arxivサイト | arxiv_id(pdf) |