Open-MAGVIT2: An Open-Source Project Toward Democratizing Auto-regressive Visual Generation

要約

300M から 1.5B までの自動回帰画像生成モデル ファミリである Open-MAGVIT2 を紹介します。
Open-MAGVIT2 プロジェクトは、超大規模なコードブック ($2^{18}$ コード) を備えたトークナイザーである Google の MAGVIT-v2 トークナイザーのオープンソース レプリケーションを生成し、最先端の再構成パフォーマンスを実現します。
(1.17 rFID) ImageNet では $256 \times 256$。
さらに、単純な自己回帰モデルでの応用を調査し、スケーラビリティ特性を検証します。
自己回帰モデルによる超大規模語彙の予測を支援するために、非対称トークン因数分解によってサイズの異なる 2 つのサブ語彙に因数分解し、さらに「次のサブトークン予測」を導入してサブトークンの相互作用を強化して生成を改善します。
品質。
私たちは、自動回帰ビジュアル生成の分野での革新と創造性を促進するために、すべてのモデルとコードをリリースします。

要約(オリジナル)

We present Open-MAGVIT2, a family of auto-regressive image generation models ranging from 300M to 1.5B. The Open-MAGVIT2 project produces an open-source replication of Google’s MAGVIT-v2 tokenizer, a tokenizer with a super-large codebook (i.e., $2^{18}$ codes), and achieves the state-of-the-art reconstruction performance (1.17 rFID) on ImageNet $256 \times 256$. Furthermore, we explore its application in plain auto-regressive models and validate scalability properties. To assist auto-regressive models in predicting with a super-large vocabulary, we factorize it into two sub-vocabulary of different sizes by asymmetric token factorization, and further introduce ‘next sub-token prediction’ to enhance sub-token interaction for better generation quality. We release all models and codes to foster innovation and creativity in the field of auto-regressive visual generation.

arxiv情報

著者 Zhuoyan Luo,Fengyuan Shi,Yixiao Ge,Yujiu Yang,Limin Wang,Ying Shan
発行日 2024-09-06 17:14:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク