Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

要約

我々は、画像の自己回帰学習を、標準的なラスタースキャンの「次のスケールの予測」または「次の解像度の予測」として粗いものから細かいものへの「次の解像度の予測」として再定義する新世代のパラダイムであるビジュアル自動回帰モデリング(VAR)を紹介します。
トークン予測」。
このシンプルで直感的な方法論により、自己回帰 (AR) トランスフォーマーは視覚的な分布を迅速に学習し、適切に一般化することができます。VAR により、画像生成において GPT のような AR モデルが拡散トランスフォーマーを初めて上回ります。
ImageNet 256×256 ベンチマークでは、VAR により、Frechet インセプション ディスタンス (FID) が 18.65 から 1.73、インセプション スコア (IS) が 80.4 から 350.2 に向上し、推論速度が約 20 倍速くなり、AR ベースラインが大幅に向上しました。
また、VAR は、画質、推論速度、データ効率、スケーラビリティなどのさまざまな面で拡散変換器 (DiT) よりも優れていることが経験的に検証されています。
VAR モデルをスケールアップすると、LLM で観察されたものと同様の明確なべき乗則スケーリング則が示され、確実な証拠として -0.998 に近い線形相関係数が示されます。
VAR はさらに、画像のインペインティング、アウトペインティング、編集などの下流タスクにおけるゼロショット汎化機能を実証します。
これらの結果は、VAR が当初、LLM の 2 つの重要な特性、つまりスケーリング則とゼロショット タスクの一般化をエミュレートしていたことを示唆しています。
ビジュアル生成と統合学習のための AR/VAR モデルの探索を促進するために、すべてのモデルとコードをリリースしました。

要約(オリジナル)

We present Visual AutoRegressive modeling (VAR), a new generation paradigm that redefines the autoregressive learning on images as coarse-to-fine ‘next-scale prediction’ or ‘next-resolution prediction’, diverging from the standard raster-scan ‘next-token prediction’. This simple, intuitive methodology allows autoregressive (AR) transformers to learn visual distributions fast and generalize well: VAR, for the first time, makes GPT-like AR models surpass diffusion transformers in image generation. On ImageNet 256×256 benchmark, VAR significantly improve AR baseline by improving Frechet inception distance (FID) from 18.65 to 1.73, inception score (IS) from 80.4 to 350.2, with around 20x faster inference speed. It is also empirically verified that VAR outperforms the Diffusion Transformer (DiT) in multiple dimensions including image quality, inference speed, data efficiency, and scalability. Scaling up VAR models exhibits clear power-law scaling laws similar to those observed in LLMs, with linear correlation coefficients near -0.998 as solid evidence. VAR further showcases zero-shot generalization ability in downstream tasks including image in-painting, out-painting, and editing. These results suggest VAR has initially emulated the two important properties of LLMs: Scaling Laws and zero-shot task generalization. We have released all models and codes to promote the exploration of AR/VAR models for visual generation and unified learning.

arxiv情報

著者 Keyu Tian,Yi Jiang,Zehuan Yuan,Bingyue Peng,Liwei Wang
発行日 2024-06-10 17:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク