Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures

要約

強力な深層生成ツールとして登場した拡散モデルは、さまざまなアプリケーションで優れています。
これらは 2 段階のプロセスを通じて動作します。トレーニング サンプルにノイズを導入し、次にモデルを使用してランダム ノイズを新しいサンプル (画像など) に変換します。
ただし、その顕著な生成パフォーマンスは、トレーニングとサンプリングが遅いために妨げられます。
これは、広範な順方向および逆方向の拡散軌跡を追跡し、複数のタイムステップにわたる多数のパラメータ (つまり、ノイズ レベル) を含む大規模なモデルを使用する必要があるためです。
これらの課題に取り組むために、私たちは経験的な発見に触発された多段階のフレームワークを提示します。
これらの観察結果は、すべてのタイム ステップにわたって共有される普遍的なパラメーターを保持しながら、各タイムステップに合わせた個別のパラメーターを採用する利点を示しています。
私たちのアプローチには、時間間隔を複数の段階にセグメント化し、時間依存モデルと普遍的に共有されるエンコーダーをブレンドするカスタム マルチデコーダー U-net アーキテクチャを採用します。
私たちのフレームワークにより、計算リソースの効率的な配分が可能になり、ステージ間の干渉が軽減され、トレーニング効率が大幅に向上します。
広範な数値実験により、私たちのフレームワークの有効性が確認され、大規模な潜在拡散モデルを含む 3 つの最先端の拡散モデルでトレーニングとサンプリングの効率が大幅に向上したことが示されています。
さらに、当社のアブレーション研究は、当社のフレームワークにおける 2 つの重要なコンポーネントの影響を示しています。(i) ステージ分割のための新しいタイムステップ クラスタリング アルゴリズム、(ii) ユニバーサルおよびカスタマイズされたハイパーパラメータをシームレスに統合する革新的なマルチデコーダ U-net アーキテクチャ。

要約(オリジナル)

Diffusion models, emerging as powerful deep generative tools, excel in various applications. They operate through a two-steps process: introducing noise into training samples and then employing a model to convert random noise into new samples (e.g., images). However, their remarkable generative performance is hindered by slow training and sampling. This is due to the necessity of tracking extensive forward and reverse diffusion trajectories, and employing a large model with numerous parameters across multiple timesteps (i.e., noise levels). To tackle these challenges, we present a multi-stage framework inspired by our empirical findings. These observations indicate the advantages of employing distinct parameters tailored to each timestep while retaining universal parameters shared across all time steps. Our approach involves segmenting the time interval into multiple stages where we employ custom multi-decoder U-net architecture that blends time-dependent models with a universally shared encoder. Our framework enables the efficient distribution of computational resources and mitigates inter-stage interference, which substantially improves training efficiency. Extensive numerical experiments affirm the effectiveness of our framework, showcasing significant training and sampling efficiency enhancements on three state-of-the-art diffusion models, including large-scale latent diffusion models. Furthermore, our ablation studies illustrate the impact of two important components in our framework: (i) a novel timestep clustering algorithm for stage division, and (ii) an innovative multi-decoder U-net architecture, seamlessly integrating universal and customized hyperparameters.

arxiv情報

著者 Huijie Zhang,Yifu Lu,Ismail Alkhouri,Saiprasad Ravishankar,Dogyoon Song,Qing Qu
発行日 2024-06-10 14:37:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク