AliTok: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model

要約

オートレーリングイメージの生成は、以前のトークンに基づいて次のトークンを予測することを目指しています。
ただし、既存の画像トークンザーは、圧縮プロセス中に双方向の依存関係でトークンをエンコードします。これにより、自己回帰モデルによる効果的なモデリングが妨げられます。
この論文では、因果デコーダーを使用してエンコードされたトークン間の単方向依存性を確立するために因果デコーダーを使用して、トークン剤と自己回復モデルの間のトークンモデリングアプローチを整列させる新しい整列トークン剤(Alitok)を提案します。
さらに、プレフィックストークンを組み込み、2段階のトークナイザートレーニングを使用して再構成の一貫性を高めることにより、アリトクは世代に優しい間、優れた再構成パフォーマンスを達成します。
ImagENet-256ベンチマークでは、標準のデコーダーのみの自動脱着モデルを177mパラメーターのみの発電機として使用して、AlitokはGFIDスコアが1.50、IS 305.9のGFIDスコアを達成します。
パラメーターカウントが662mに増加すると、Alitokは1.35のGFIDスコアを達成し、10倍のサンプリング速度で最先端の拡散法を上回ります。
コードと重みはhttps://github.com/ali-vilab/alitokで入手できます。

要約(オリジナル)

Autoregressive image generation aims to predict the next token based on previous ones. However, existing image tokenizers encode tokens with bidirectional dependencies during the compression process, which hinders the effective modeling by autoregressive models. In this paper, we propose a novel Aligned Tokenizer (AliTok), which utilizes a causal decoder to establish unidirectional dependencies among encoded tokens, thereby aligning the token modeling approach between the tokenizer and autoregressive model. Furthermore, by incorporating prefix tokens and employing two-stage tokenizer training to enhance reconstruction consistency, AliTok achieves great reconstruction performance while being generation-friendly. On ImageNet-256 benchmark, using a standard decoder-only autoregressive model as the generator with only 177M parameters, AliTok achieves a gFID score of 1.50 and an IS of 305.9. When the parameter count is increased to 662M, AliTok achieves a gFID score of 1.35, surpassing the state-of-the-art diffusion method with 10x faster sampling speed. The code and weights are available at https://github.com/ali-vilab/alitok.

arxiv情報

著者 Pingyu Wu,Kai Zhu,Yu Liu,Longxiang Tang,Jian Yang,Yansong Peng,Wei Zhai,Yang Cao,Zheng-Jun Zha
発行日 2025-06-05 17:45:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク