要約
マルチモーダル生成の最近の進歩により、自己回帰(AR)と拡散ベースのアプローチがますます組み合わされており、補完的な強みを活用しています。ARモデルは長距離依存関係をキャプチャし、流fluent、コンテキストを意識した出力を生成しますが、拡散モデルは連続的な潜在スペースで動作し、高フィデリティの視覚的詳細を改善します。
ただし、既存のハイブリッドには、これらのパラダイム間にモデル容量を割り当てる方法と理由に関する体系的なガイダンスがしばしば欠けています。
この作業では、AR拡散トレードオフを分析するためのテストベッドとして機能する混合自己回帰と拡散トランスであるMadformerを紹介します。
Madformerは、画像の生成を空間ブロックに分割します。ARレイヤーを使用して、ブロック全体のワンパスグローバルコンディショニングと各ブロック内の反復局所洗練の拡散層を使用します。
FFHQ-1024とImagenetでの制御された実験を通じて、2つの重要な洞察を特定します。(1)ブロックごとのパーティション化により、高解像度画像のパフォーマンスが大幅に向上し、(2)ARと拡散層の垂直混合により、より良い品質効率バランスが得られます。
私たちの調査結果は、将来のハイブリッド生成モデルの実用的な設計原則を提供します。
要約(オリジナル)
Recent progress in multimodal generation has increasingly combined autoregressive (AR) and diffusion-based approaches, leveraging their complementary strengths: AR models capture long-range dependencies and produce fluent, context-aware outputs, while diffusion models operate in continuous latent spaces to refine high-fidelity visual details. However, existing hybrids often lack systematic guidance on how and why to allocate model capacity between these paradigms. In this work, we introduce MADFormer, a Mixed Autoregressive and Diffusion Transformer that serves as a testbed for analyzing AR-diffusion trade-offs. MADFormer partitions image generation into spatial blocks, using AR layers for one-pass global conditioning across blocks and diffusion layers for iterative local refinement within each block. Through controlled experiments on FFHQ-1024 and ImageNet, we identify two key insights: (1) block-wise partitioning significantly improves performance on high-resolution images, and (2) vertically mixing AR and diffusion layers yields better quality-efficiency balances–improving FID by up to 75% under constrained inference compute. Our findings offer practical design principles for future hybrid generative models.
arxiv情報
著者 | Junhao Chen,Yulia Tsvetkov,Xiaochuang Han |
発行日 | 2025-06-09 17:59:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google