要約
コンピューター ビジョンには、画像生成のための新しい自己回帰パラダイムを提案する VAR と呼ばれる最近の研究が存在します。
バニラの次トークン予測とは異なり、VAR は画像生成を構造的に再定式化し、粗い次のスケールの予測から細かい次のスケールの予測を生成します。
この論文では、このスケールごとの自己回帰フレームワークが、各スケール内の局所的な空間依存性を捉える \textit{スケール内モデリング} と、スケール間をモデル化する \textit{スケール間モデリング} に効果的に分離できることを示します。
関係を粗いスケールから細かいスケールまで段階的にスケールします。
この分離構造により、より計算効率の高い方法で VAR を再構築できます。
具体的には、高忠実度画像の生成に不可欠なイントラスケール モデリングでは、オリジナルの双方向セルフ アテンション設計を維持して、包括的なモデリングを保証します。
スケール間モデリングは、異なるスケールを意味論的に接続しますが、計算量が多いため、Mamba のような線形複雑性メカニズムを適用して、計算オーバーヘッドを大幅に削減します。
この新しいフレームワークを M-VAR と呼びます。
広範な実験により、私たちの方法が画質と生成速度の両方で既存のモデルよりも優れていることが実証されました。
たとえば、パラメータが少なく推論速度が速い 1.5B モデルは、最大の VAR-d30-2B よりも優れたパフォーマンスを発揮します。
さらに、当社の最大モデル M-VAR-d32 は、ImageNet 256$\times$256 で 1.78 FID を記録し、従来技術の自己回帰モデル LlamaGen/VAR を 0.4/0.19、一般的な拡散モデル LDM/DiT をそれぞれ 1.82/0.49 上回りました。
コードは \url{https://github.com/OliverRensu/MVAR} で入手できます。
要約(オリジナル)
There exists recent work in computer vision, named VAR, that proposes a new autoregressive paradigm for image generation. Diverging from the vanilla next-token prediction, VAR structurally reformulates the image generation into a coarse to fine next-scale prediction. In this paper, we show that this scale-wise autoregressive framework can be effectively decoupled into \textit{intra-scale modeling}, which captures local spatial dependencies within each scale, and \textit{inter-scale modeling}, which models cross-scale relationships progressively from coarse-to-fine scales. This decoupling structure allows to rebuild VAR in a more computationally efficient manner. Specifically, for intra-scale modeling — crucial for generating high-fidelity images — we retain the original bidirectional self-attention design to ensure comprehensive modeling; for inter-scale modeling, which semantically connects different scales but is computationally intensive, we apply linear-complexity mechanisms like Mamba to substantially reduce computational overhead. We term this new framework M-VAR. Extensive experiments demonstrate that our method outperforms existing models in both image quality and generation speed. For example, our 1.5B model, with fewer parameters and faster inference speed, outperforms the largest VAR-d30-2B. Moreover, our largest model M-VAR-d32 impressively registers 1.78 FID on ImageNet 256$\times$256 and outperforms the prior-art autoregressive models LlamaGen/VAR by 0.4/0.19 and popular diffusion models LDM/DiT by 1.82/0.49, respectively. Code is avaiable at \url{https://github.com/OliverRensu/MVAR}.
arxiv情報
著者 | Sucheng Ren,Yaodong Yu,Nataniel Ruiz,Feng Wang,Alan Yuille,Cihang Xie |
発行日 | 2024-11-15 18:54:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google