要約
フローモデルは、現実的な画像を徐々に生成するのに効果的ですが、一般に、以前の時間のステップからすべての情報を単一の破損した画像に圧縮するため、生成プロセス中に長距離依存関係をキャプチャするのに苦労しています。
この制限に対処するために、モデリングの卓越性が複雑で高次元のジョイント確率分布の卓越性で知られている統合をフローモデルに統合することを提案します。
トレーニング中、各ステップで、同じセマンティックカテゴリから複数の画像をサンプリングし、異なるレベルのノイズを適用することにより、因果的に秩序化したシーケンスを構築します。ここで、ノイズレベルが高い画像が低いノイズレベルの因果関係の前任者として機能します。
この設計により、モデルは、フロープロセスで適切な因果関係を維持しながら、より広範なカテゴリレベルのバリエーションを学習できます。
生成中、モデルは以前に生成された以前の除去ステップからの画像を自動網羅的に条件付けし、文脈的およびコヒーレントな生成軌跡を形成します。
さらに、計算効率を高めるためにモデリングアプローチに合わせたカスタマイズされたハイブリッド線形注意メカニズムを設計します。
Arflowと呼ばれる40万トレーニングステップと呼ばれるアプローチは、分類器のないガイダンスなしで128 * 128でImagenetで14.08 FIDスコアを達成し、分類器のないガイダンス1.5で4.34 FIDに達し、以前のフローベースのモデルSITの9.17 FIDを大幅に上回っています。
広範なアブレーション研究は、モデリング戦略とチャンクワイズの注意設計の有効性を示しています。
要約(オリジナル)
Flow models are effective at progressively generating realistic images, but they generally struggle to capture long-range dependencies during the generation process as they compress all the information from previous time steps into a single corrupted image. To address this limitation, we propose integrating autoregressive modeling — known for its excellence in modeling complex, high-dimensional joint probability distributions — into flow models. During training, at each step, we construct causally-ordered sequences by sampling multiple images from the same semantic category and applying different levels of noise, where images with higher noise levels serve as causal predecessors to those with lower noise levels. This design enables the model to learn broader category-level variations while maintaining proper causal relationships in the flow process. During generation, the model autoregressively conditions the previously generated images from earlier denoising steps, forming a contextual and coherent generation trajectory. Additionally, we design a customized hybrid linear attention mechanism tailored to our modeling approach to enhance computational efficiency. Our approach, termed ARFlow, under 400k training steps, achieves 14.08 FID scores on ImageNet at 128 * 128 without classifier-free guidance, reaching 4.34 FID with classifier-free guidance 1.5, significantly outperforming the previous flow-based model SiT’s 9.17 FID. Extensive ablation studies demonstrate the effectiveness of our modeling strategy and chunk-wise attention design.
arxiv情報
著者 | Mude Hui,Rui-Jie Zhu,Songlin Yang,Yu Zhang,Zirui Wang,Yuyin Zhou,Jason Eshraghian,Cihang Xie |
発行日 | 2025-01-27 14:33:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google