要約
拡散モデルは、高次元データの生成に優れていますが、自己教師の方法と比較して、トレーニング効率と表現の質には不足しています。
重要なボトルネックを特定します。トレーニング中の高品質で意味的に豊富な表現の十分な活用は、収束を著しく遅らせます。
私たちの体系的な分析は、主に初期層の重要な表現処理領域を明らかにしています。ここでは、発電が発生する前に意味的および構造的なパターン学習が行われます。
これに対処するために、最初の段階でERWモジュールを取得するプラグアンドプレイフレームワークである埋め込み表現ウォームアップ(ERW)を提案します。
このウォームアップは、学習表現の負担をゼロから最小限に抑え、それにより収束とパフォーマンスの向上を促進します。
私たちの理論分析は、ERWの有効性が、モデルが主に後の世代の特徴表現を処理および変換する表現処理領域と呼ばれる特定のニューラルネットワークレイヤーと呼ばれる特定のニューラルネットワーク層への正確な統合に依存していることを示しています。
さらに、ERWはトレーニングの収束を加速するだけでなく、表現品質を向上させることを確立します。経験的に、私たちの方法は、現在の最先端の方法であるRepaと比較して、トレーニング速度の40 $ \ Times $加速を達成します。
コードはhttps://github.com/lins-lab/erwで入手できます。
要約(オリジナル)
Diffusion models excel at generating high-dimensional data but fall short in training efficiency and representation quality compared to self-supervised methods. We identify a key bottleneck: the underutilization of high-quality, semantically rich representations during training notably slows down convergence. Our systematic analysis reveals a critical representation processing region — primarily in the early layers — where semantic and structural pattern learning takes place before generation can occur. To address this, we propose Embedded Representation Warmup (ERW), a plug-and-play framework where in the first stage we get the ERW module serves as a warmup that initializes the early layers of the diffusion model with high-quality, pretrained representations. This warmup minimizes the burden of learning representations from scratch, thereby accelerating convergence and boosting performance. Our theoretical analysis demonstrates that ERW’s efficacy depends on its precise integration into specific neural network layers — termed the representation processing region — where the model primarily processes and transforms feature representations for later generation. We further establish that ERW not only accelerates training convergence but also enhances representation quality: empirically, our method achieves a 40$\times$ acceleration in training speed compared to REPA, the current state-of-the-art methods. Code is available at https://github.com/LINs-lab/ERW.
arxiv情報
著者 | Deyuan Liu,Peng Sun,Xufeng Li,Tao Lin |
発行日 | 2025-04-14 12:43:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google