要約
拡散モデルは、視覚信号を生成するための事実上の選択肢として登場した。しかし、様々なレベルのノイズを予測するために単一のモデルをトレーニングすることは、多くの反復を必要とし、多大な計算コストがかかるという大きな課題を提起している。収束を早めるために、損失重み付け戦略の設計やアーキテクチャの改良など、様々なアプローチが導入されてきた。本研究では、拡散モデルの学習を促進するために、ノイズスケジュールを設計する新しいアプローチを提案する。我々の重要な洞察は、信号対雑音比(logSNR)の重要度サンプリングは、理論的には修正されたノイズスケジュールと等価であり、$log \text{SNR}=0$付近でサンプル頻度を増加させるとき、学習効率に特に有益であるということである。本論文では、標準的なコサインスケジュールに対する本ノイズスケジュールの優位性を実証的に示す。さらに、ImageNetベンチマークにおいて、我々のノイズスケジュール設計の利点を強調し、設計されたスケジュールが異なる予測対象に一貫して有益であることを示す。
要約(オリジナル)
Diffusion models have emerged as the de facto choice for generating visual signals. However, training a single model to predict noise across various levels poses significant challenges, necessitating numerous iterations and incurring significant computational costs. Various approaches, such as loss weighting strategy design and architectural refinements, have been introduced to expedite convergence. In this study, we propose a novel approach to design the noise schedule for enhancing the training of diffusion models. Our key insight is that the importance sampling of the logarithm of the Signal-to-Noise ratio (logSNR), theoretically equivalent to a modified noise schedule, is particularly beneficial for training efficiency when increasing the sample frequency around $\log \text{SNR}=0$. We empirically demonstrate the superiority of our noise schedule over the standard cosine schedule. Furthermore, we highlight the advantages of our noise schedule design on the ImageNet benchmark, showing that the designed schedule consistently benefits different prediction targets.
arxiv情報
著者 | Tiankai Hang,Shuyang Gu |
発行日 | 2024-07-03 17:34:55+00:00 |
arxivサイト | arxiv_id(pdf) |