MaskBit: Embedding-free Image Generation via Bit Tokens

要約

クラス条件付き画像生成用のマスクされたトランスフォーマー モデルは、拡散モデルの有力な代替手段となっています。
通常、潜在空間と画像空間の間を遷移するための初期 VQGAN モデルと、潜在空間内で画像を生成するための後続の Transformer モデルという 2 つの段階で構成され、これらのフレームワークは画像合成に有望な手段を提供します。
この研究では、2 つの主な貢献を紹介します。まず、最新の VQGAN につながる VQGAN の実証的かつ系統的な調査です。
第 2 に、ビット トークン (豊富なセマンティクスを持つトークンのバイナリ量子化表現) 上で直接動作する、新しい埋め込み不要の生成ネットワークです。
最初の貢献は、透明性があり、再現可能で、高性能の VQGAN モデルを提供し、アクセシビリティを強化し、現在の最先端の手法のパフォーマンスに匹敵すると同時に、これまで非公開だった詳細を明らかにします。
2 番目の貢献は、ビット トークンを使用した埋め込みフリーの画像生成が、わずか 3 億 500 万のパラメーターのコンパクトなジェネレーター モデルで、ImageNet 256×256 ベンチマークで 1.52 という新しい最先端の FID を達成することを示しています。

要約(オリジナル)

Masked transformer models for class-conditional image generation have become a compelling alternative to diffusion models. Typically comprising two stages – an initial VQGAN model for transitioning between latent space and image space, and a subsequent Transformer model for image generation within latent space – these frameworks offer promising avenues for image synthesis. In this study, we present two primary contributions: Firstly, an empirical and systematic examination of VQGANs, leading to a modernized VQGAN. Secondly, a novel embedding-free generation network operating directly on bit tokens – a binary quantized representation of tokens with rich semantics. The first contribution furnishes a transparent, reproducible, and high-performing VQGAN model, enhancing accessibility and matching the performance of current state-of-the-art methods while revealing previously undisclosed details. The second contribution demonstrates that embedding-free image generation using bit tokens achieves a new state-of-the-art FID of 1.52 on the ImageNet 256×256 benchmark, with a compact generator model of mere 305M parameters.

arxiv情報

著者 Mark Weber,Lijun Yu,Qihang Yu,Xueqing Deng,Xiaohui Shen,Daniel Cremers,Liang-Chieh Chen
発行日 2024-09-24 16:12:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク