Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

要約

我々はVisual AutoRegressive modeling (VAR)を発表する。VARは、画像上の自己回帰学習を、標準的なラスタースキャンの「次トークン予測」から乖離した、粗から細への「次スケール予測」または「次解像度予測」として再定義する新世代のパラダイムである。このシンプルで直感的な方法論により、自己回帰(AR)変換器は視覚分布を高速に学習し、うまく汎化することができる:VARは初めて、画像生成においてARモデルを拡散変換を凌駕するようにした。ImageNetの256×256ベンチマークにおいて、VARはFrechet inception distance (FID)を18.65から1.80に、inception score (IS)を80.4から356.4に改善し、推論速度を約20倍高速化することで、ARのベースラインを大幅に改善しました。また、VARは、画質、推論速度、データ効率、スケーラビリティを含む複数の次元において、拡散変換器(DiT)を上回ることが実証的に検証されています。VARモデルのスケールアップは、LLMで観測されたものと同様の明確なべき乗則のスケーリング則を示し、-0.998に近い線形相関係数が確かな証拠となります。VARはさらに、画像のインペインティング、アウトペインティング、編集を含むダウンストリームタスクにおいて、ゼロショット汎化能力を示す。これらの結果は、VARがLLMの2つの重要な特性をエミュレートしていることを示唆しています:スケーリング則とゼロショットタスク汎化です。我々は、視覚生成と統一学習のためのAR/VARモデルの探求を促進するために、全てのモデルとコードを公開した。

要約(オリジナル)

We present Visual AutoRegressive modeling (VAR), a new generation paradigm that redefines the autoregressive learning on images as coarse-to-fine ‘next-scale prediction’ or ‘next-resolution prediction’, diverging from the standard raster-scan ‘next-token prediction’. This simple, intuitive methodology allows autoregressive (AR) transformers to learn visual distributions fast and generalize well: VAR, for the first time, makes AR models surpass diffusion transformers in image generation. On ImageNet 256×256 benchmark, VAR significantly improve AR baseline by improving Frechet inception distance (FID) from 18.65 to 1.80, inception score (IS) from 80.4 to 356.4, with around 20x faster inference speed. It is also empirically verified that VAR outperforms the Diffusion Transformer (DiT) in multiple dimensions including image quality, inference speed, data efficiency, and scalability. Scaling up VAR models exhibits clear power-law scaling laws similar to those observed in LLMs, with linear correlation coefficients near -0.998 as solid evidence. VAR further showcases zero-shot generalization ability in downstream tasks including image in-painting, out-painting, and editing. These results suggest VAR has initially emulated the two important properties of LLMs: Scaling Laws and zero-shot task generalization. We have released all models and codes to promote the exploration of AR/VAR models for visual generation and unified learning.

arxiv情報

著者 Keyu Tian,Yi Jiang,Zehuan Yuan,Bingyue Peng,Liwei Wang
発行日 2024-04-03 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク