要約
自己回帰 (AR) モデリングは、次のトークン予測を通じてモデルが一貫性と文脈の理解を備えたテキストを生成できるようにすることで、自然言語処理において目覚ましい成功を収めました。
最近、画像生成において、VAR はスケールごとの自己回帰モデリングを提案しています。これは、画像の 2D 構造を維持しながら、次のトークン予測を次のスケール予測に拡張します。
ただし、VAR は 2 つの主要な課題に直面しています。(1) 複雑かつ厳格なスケール設計により、次のスケール予測における一般化が制限されます。(2) ジェネレーターが同じ複雑なスケール構造を持つ個別のトークナイザーに依存しているため、トークナイザーの更新におけるモジュール性と柔軟性が制限されます。
これらの制限に対処するために、合理化されたスケール設計を特徴とする一般的な次のスケール予測方法である FlowAR を導入します。この手法では、後続の各スケールが前のスケールの単純に 2 倍になります。
これにより、VAR の複雑なマルチスケール残差トークナイザーの必要性がなくなり、既製の変分オートエンコーダー (VAE) を使用できるようになります。
当社の簡略化された設計により、次のスケールの予測における一般化が強化され、高品質の画像合成のためのフロー マッチングの統合が容易になります。
困難な ImageNet-256 ベンチマークで FlowAR の有効性を検証し、以前の方法と比較して優れた生成パフォーマンスを実証しました。
コードは \url{https://github.com/OliverRensu/FlowAR} で入手できます。
要約(オリジナル)
Autoregressive (AR) modeling has achieved remarkable success in natural language processing by enabling models to generate text with coherence and contextual understanding through next token prediction. Recently, in image generation, VAR proposes scale-wise autoregressive modeling, which extends the next token prediction to the next scale prediction, preserving the 2D structure of images. However, VAR encounters two primary challenges: (1) its complex and rigid scale design limits generalization in next scale prediction, and (2) the generator’s dependence on a discrete tokenizer with the same complex scale structure restricts modularity and flexibility in updating the tokenizer. To address these limitations, we introduce FlowAR, a general next scale prediction method featuring a streamlined scale design, where each subsequent scale is simply double the previous one. This eliminates the need for VAR’s intricate multi-scale residual tokenizer and enables the use of any off-the-shelf Variational AutoEncoder (VAE). Our simplified design enhances generalization in next scale prediction and facilitates the integration of Flow Matching for high-quality image synthesis. We validate the effectiveness of FlowAR on the challenging ImageNet-256 benchmark, demonstrating superior generation performance compared to previous methods. Codes will be available at \url{https://github.com/OliverRensu/FlowAR}.
arxiv情報
著者 | Sucheng Ren,Qihang Yu,Ju He,Xiaohui Shen,Alan Yuille,Liang-Chieh Chen |
発行日 | 2024-12-19 18:59:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google