要約
フローベースの生成モデルは、単純な原理、つまり線形補間の学習速度表現を学習することにより、複数の視覚生成タスクにわたって印象的なパスをチャート化しました。
ただし、最終レイヤー出力からのみトレーニング速度が豊富な層間表現を十分に活用しており、潜在的に妨げられるモデルの収束が十分であることが観察されます。
この制限に対処するために、インターレイヤー通信を通じて速度表現を強化する新しいフレームワークであるDeepFlowを紹介します。
DeepFlowパーティション変圧器層は、ディープスーカーを備えたバランスの取れた分岐になり、隣接する枝の間に加速度(VERA)ブロックを備えた軽量速度精製機を挿入します。
内部速度アラインメントを介した改善された深い監督を搭載したDeepFlowは、ImagENetで同等のパフォーマンスで8倍速く収束し、分類剤フリーガイダンスなしの以前のフローベースのモデルと比較してトレーニング時間を半分にしながら、FIDをさらに2.6減らします。
DeepFlowは、MSCOCOおよびゼロショットGenevalの評価によって証明されるように、テキストのベースラインを画像生成タスクよりも優れています。
要約(オリジナル)
Flow based generative models have charted an impressive path across multiple visual generation tasks by adhering to a simple principle: learning velocity representations of a linear interpolant. However, we observe that training velocity solely from the final layer output underutilizes the rich inter layer representations, potentially impeding model convergence. To address this limitation, we introduce DeepFlow, a novel framework that enhances velocity representation through inter layer communication. DeepFlow partitions transformer layers into balanced branches with deep supervision and inserts a lightweight Velocity Refiner with Acceleration (VeRA) block between adjacent branches, which aligns the intermediate velocity features within transformer blocks. Powered by the improved deep supervision via the internal velocity alignment, DeepFlow converges 8 times faster on ImageNet with equivalent performance and further reduces FID by 2.6 while halving training time compared to previous flow based models without a classifier free guidance. DeepFlow also outperforms baselines in text to image generation tasks, as evidenced by evaluations on MSCOCO and zero shot GenEval.
arxiv情報
著者 | Inkyu Shin,Chenglin Yang,Liang-Chieh Chen |
発行日 | 2025-03-18 17:58:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google