要約
拡散モデルの長いサンプリング時間は、重要なボトルネックのままであり、拡散時間ステップの数を減らすことで緩和できます。
ただし、ステップが少ないサンプルの品質は、ノイズスケジュール、つまり、ノイズが導入され、各ステップで信号が低下する特定の方法に大きく依存します。
以前の作業は、元の分散と分散抽出スケジュールを改善しましたが、これらのアプローチ$ \ textit {受動的に} $は、それを直接制御することなく、全体の分散を調整します。
この作業では、テレビとSNRを独立して制御できる新しいトータルバリケーション/シグナルからノイズへのレイティオ(TV/SNR)フレームワークを提案します。
私たちのアプローチは、同じSNRスケジュールを維持しながら一定のテレビスケジュールを採用することにより、テレビが指数関数的に爆発するスケジュールを指数関数的に改善できることを明らかにしています。
さらに、最適な輸送フローのSNRスケジュールを一致させると、生成パフォーマンスが大幅に向上します。
私たちの調査結果は、分子構造や画像生成を含む、さまざまな逆拡散ソルバーと多様なアプリケーションを介して保持されます。
要約(オリジナル)
The long sampling time of diffusion models remains a significant bottleneck, which can be mitigated by reducing the number of diffusion time steps. However, the quality of samples with fewer steps is highly dependent on the noise schedule, i.e., the specific manner in which noise is introduced and the signal is reduced at each step. Although prior work has improved upon the original variance-preserving and variance-exploding schedules, these approaches $\textit{passively}$ adjust the total variance, without direct control over it. In this work, we propose a novel total-variance/signal-to-noise-ratio disentangled (TV/SNR) framework, where TV and SNR can be controlled independently. Our approach reveals that schedules where the TV explodes exponentially can often be improved by adopting a constant TV schedule while preserving the same SNR schedule. Furthermore, generalizing the SNR schedule of the optimal transport flow matching significantly improves the generation performance. Our findings hold across various reverse diffusion solvers and diverse applications, including molecular structure and image generation.
arxiv情報
著者 | Khaled Kahouli,Winfried Ripken,Stefan Gugler,Oliver T. Unke,Klaus-Robert Müller,Shinichi Nakajima |
発行日 | 2025-06-02 10:48:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google