E-CAR: Efficient Continuous Autoregressive Image Generation via Multistage Modeling

要約

画像生成用の連続トークンを使用した自己回帰 (AR) モデルの最近の進歩により、離散トークン化の必要性が排除され、有望な結果が得られています。
ただし、これらのモデルは、逐次トークン生成の性質と、計算量の多い拡散ベースのサンプリングへの依存により、効率の課題に直面しています。
我々は、ECAR (多段階モデリングによる効率的な連続自動回帰画像生成) を提案します。これは、2 つの絡み合った革新を通じてこれらの制限に対処するアプローチです。 (1) 計算の複雑さを軽減し、段階的に洗練されたトークン マップを階層的に提供する段階ごとの連続トークン生成戦略。
(2) 通常の拡散における完全なノイズ除去と比較して、各段階で部分的にノイズ除去された分布のみを変換する多段階フローベースの分布モデリング手法
モデル。
総合的には、ECAR は、各段階で画像のノイズを除去しながら、解像度を上げながらトークンを生成することで動作します。
この設計により、トークンからイメージへの変換コストがステージ数の係数で削減されるだけでなく、トークン レベルでの並列処理も可能になります。
私たちのアプローチは、計算効率を高めるだけでなく、連続トークン空間で動作し、粗いものから細かいものまでの階層的な生成プロセスに従うことにより、画像生成原理と自然に一致します。
実験結果は、ECAR が DiT Peebles & Xie [2023] と同等の画質を達成する一方で、256$\times$256 の画像を生成するのに 10$\times$ の FLOP 削減と 5$\times$ の高速化を必要とすることを示しています。

要約(オリジナル)

Recent advances in autoregressive (AR) models with continuous tokens for image generation show promising results by eliminating the need for discrete tokenization. However, these models face efficiency challenges due to their sequential token generation nature and reliance on computationally intensive diffusion-based sampling. We present ECAR (Efficient Continuous Auto-Regressive Image Generation via Multistage Modeling), an approach that addresses these limitations through two intertwined innovations: (1) a stage-wise continuous token generation strategy that reduces computational complexity and provides progressively refined token maps as hierarchical conditions, and (2) a multistage flow-based distribution modeling method that transforms only partial-denoised distributions at each stage comparing to complete denoising in normal diffusion models. Holistically, ECAR operates by generating tokens at increasing resolutions while simultaneously denoising the image at each stage. This design not only reduces token-to-image transformation cost by a factor of the stage number but also enables parallel processing at the token level. Our approach not only enhances computational efficiency but also aligns naturally with image generation principles by operating in continuous token space and following a hierarchical generation process from coarse to fine details. Experimental results demonstrate that ECAR achieves comparable image quality to DiT Peebles & Xie [2023] while requiring 10$\times$ FLOPs reduction and 5$\times$ speedup to generate a 256$\times$256 image.

arxiv情報

著者 Zhihang Yuan,Yuzhang Shang,Hanling Zhang,Tongcheng Fang,Rui Xie,Bingxin Xu,Yan Yan,Shengen Yan,Guohao Dai,Yu Wang
発行日 2024-12-19 02:42:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク