要約
拡散モデルは現在、大規模なデータセットに対する比類のないスケーリングにより、データ駆動型画像合成の分野を支配しています。
このペーパーでは、一般的な ADM 拡散モデル アーキテクチャにおける高レベルの構造を変更することなく、不均一で非効果的なトレーニングを引き起こすいくつかの原因を特定し、修正します。
トレーニング中にネットワークの活性化と重みの両方における制御されていない大きさの変化と不均衡を観察し、活性化、重みを維持し、予想に基づいて大きさを更新するようにネットワーク層を再設計します。
この哲学を体系的に適用すると、観察されたドリフトや不均衡が解消され、同等の計算複雑さでかなり優れたネットワークが得られることがわかりました。
私たちの修正により、ImageNet-512 合成における以前の記録 FID 2.41 が 1.81 に改善され、高速の決定論的サンプリングを使用して達成されました。
独立した貢献として、事後、つまりトレーニング実行の完了後に指数移動平均 (EMA) パラメーターを設定する方法を紹介します。
これにより、トレーニングを数回実行するコストをかけずに EMA 長を正確に調整できるようになり、ネットワーク アーキテクチャ、トレーニング時間、ガイダンスとの驚くべき相互作用が明らかになります。
要約(オリジナル)
Diffusion models currently dominate the field of data-driven image synthesis with their unparalleled scaling to large datasets. In this paper, we identify and rectify several causes for uneven and ineffective training in the popular ADM diffusion model architecture, without altering its high-level structure. Observing uncontrolled magnitude changes and imbalances in both the network activations and weights over the course of training, we redesign the network layers to preserve activation, weight, and update magnitudes on expectation. We find that systematic application of this philosophy eliminates the observed drifts and imbalances, resulting in considerably better networks at equal computational complexity. Our modifications improve the previous record FID of 2.41 in ImageNet-512 synthesis to 1.81, achieved using fast deterministic sampling. As an independent contribution, we present a method for setting the exponential moving average (EMA) parameters post-hoc, i.e., after completing the training run. This allows precise tuning of EMA length without the cost of performing several training runs, and reveals its surprising interactions with network architecture, training time, and guidance.
arxiv情報
著者 | Tero Karras,Miika Aittala,Jaakko Lehtinen,Janne Hellsten,Timo Aila,Samuli Laine |
発行日 | 2024-03-20 12:58:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google