ARINAR: Bi-Level Autoregressive Feature-by-Feature Generative Models

要約

既存の自己回帰(AR)画像生成モデルは、トークンごとの生成スキーマを使用します。
つまり、トークンあたりの確率分布を予測し、その分布から次のトークンをサンプリングします。
主な課題は、高次元トークンの複雑な分布をモデル化する方法です。
以前の方法は、分布に適合するには単純すぎるか、生成速度が遅くなります。
トークン全体の分布を適合させる代わりに、ARモデルを使用して各トークンを機能させる方法で生成します。つまり、生成された機能を入力として使用して、次の機能を生成します。
それに基づいて、BiレベルのARモデルであるArinar(AR-in-AR)を提案します。
外側のAR層は、前のトークンを入力として取り、次のトークンの条件ベクトルzを予測します。
Zを条件とする内側の層は、次のトークンの機能を自動網目上に生成します。
このようにして、内側の層は、たとえば単純なガウス混合モデルを使用して、単一の機能の分布をモデル化するだけで済みます。
Imagenet 256×256の画像生成タスクでは、213mパラメーターを備えたArinar-Bは2.75のFIDを実現します。これは、最先端のMAR-Bモデル(FID = 2.31)に匹敵しますが、後者の5倍高速です。

要約(オリジナル)

Existing autoregressive (AR) image generative models use a token-by-token generation schema. That is, they predict a per-token probability distribution and sample the next token from that distribution. The main challenge is how to model the complex distribution of high-dimensional tokens. Previous methods either are too simplistic to fit the distribution or result in slow generation speed. Instead of fitting the distribution of the whole tokens, we explore using a AR model to generate each token in a feature-by-feature way, i.e., taking the generated features as input and generating the next feature. Based on that, we propose ARINAR (AR-in-AR), a bi-level AR model. The outer AR layer take previous tokens as input, predicts a condition vector z for the next token. The inner layer, conditional on z, generates features of the next token autoregressively. In this way, the inner layer only needs to model the distribution of a single feature, for example, using a simple Gaussian Mixture Model. On the ImageNet 256×256 image generation task, ARINAR-B with 213M parameters achieves an FID of 2.75, which is comparable to the state-of-the-art MAR-B model (FID=2.31), while five times faster than the latter.

arxiv情報

著者 Qinyu Zhao,Stephen Gould,Liang Zheng
発行日 2025-03-04 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク