Improved Noise Schedule for Diffusion Training

要約

拡散モデルは、さまざまなドメインにわたって高品質の視覚信号を生成するための事実上の選択肢として浮上しています。
ただし、単一のモデルをトレーニングしてさまざまなレベルのノイズを予測することは、多数の反復が必要となり、多大な計算コストが発生するという大きな課題を引き起こします。
収束を促進し、モデルのパフォーマンスを向上させるために、損失重み付け戦略の設計やアーキテクチャの改良などのさまざまなアプローチが導入されています。
この研究では、拡散モデルのトレーニングを強化するためのノイズ スケジュールを設計するための新しいアプローチを提案します。
私たちの重要な洞察は、信号対雑音比の対数 ($\log \text{SNR}$) のサンプリングの重要性が、理論的には修正されたノイズ スケジュールと等価であり、サンプル周波数を増やす場合のトレーニング効率に特に有益であるということです。
$\log \text{SNR}=0$ あたり。
この戦略的なサンプリングにより、モデルは信号優勢とノイズ優勢の間の重要な遷移点に焦点を当てることができ、より堅牢で正確な予測につながる可能性があります。私たちは、標準のコサイン スケジュールに対するノイズ スケジュールの優位性を経験的に実証しています。さらに、利点を強調します。
ImageNet ベンチマークでのノイズ スケジュール設計の結果は、設計されたスケジュールがさまざまな予測ターゲットに一貫して利益をもたらすことを示しています。
私たちの発見は、拡散モデルを最適化するための継続的な取り組みに貢献し、生成 AI の分野でより効率的かつ効果的なトレーニング パラダイムへの道を開く可能性があります。

要約(オリジナル)

Diffusion models have emerged as the de facto choice for generating high-quality visual signals across various domains. However, training a single model to predict noise across various levels poses significant challenges, necessitating numerous iterations and incurring significant computational costs. Various approaches, such as loss weighting strategy design and architectural refinements, have been introduced to expedite convergence and improve model performance. In this study, we propose a novel approach to design the noise schedule for enhancing the training of diffusion models. Our key insight is that the importance sampling of the logarithm of the Signal-to-Noise ratio ($\log \text{SNR}$), theoretically equivalent to a modified noise schedule, is particularly beneficial for training efficiency when increasing the sample frequency around $\log \text{SNR}=0$. This strategic sampling allows the model to focus on the critical transition point between signal dominance and noise dominance, potentially leading to more robust and accurate predictions.We empirically demonstrate the superiority of our noise schedule over the standard cosine schedule.Furthermore, we highlight the advantages of our noise schedule design on the ImageNet benchmark, showing that the designed schedule consistently benefits different prediction targets. Our findings contribute to the ongoing efforts to optimize diffusion models, potentially paving the way for more efficient and effective training paradigms in the field of generative AI.

arxiv情報

著者 Tiankai Hang,Shuyang Gu,Xin Geng,Baining Guo
発行日 2024-11-27 15:10:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク