要約
一貫性モデルは画像生成のための高い機能を備えており、高度な技術によりサンプリング ステップを 1 つのステップに進めます。
現在の進歩により、一貫性トレーニング技術は一歩前進し、蒸留トレーニングの制限がなくなりました。
改善されたトレーニング技術における提案されたカリキュラムとノイズ スケジューリングは、基本的な一貫性モデルよりも優れた結果をもたらしますが、バランスのとれたノイズ分布とカリキュラム間の一貫性が欠けています。
この研究では、ノイズ分布における高ノイズレベルと低ノイズレベルのバランスを調査し、安定性を維持するために提供される多項式ノイズ分布を検討します。
この提案された多項式ノイズ分布は、事前定義された Karras ノイズでもサポートされており、Karras ノイズ生成アルゴリズムで発生する固有のノイズ レベルを防ぎます。
さらに、正弦波関数に基づくカリキュラムで学習されたノイズの多いステップを排除することで、ノイズ除去におけるモデルのパフォーマンスが向上します。
最新リリースの一貫性モデル トレーニング技術と公正に比較するために、カリキュラムとノイズ分布を除いて同じハイパーパラメーターを使用して実験が行われます。
実験中に使用されるモデルは、提案された手法の堅牢性を証明するために浅い深さで決定されます。
結果は、多項式ノイズ分布が対数正規ノイズ分布でトレーニングされたモデルよりも優れており、一定の離散化ステップで 100,000 回のトレーニング ステップを行った後に 33.54 の FID スコアが得られたことを示しています。
さらに、正弦波ベースのカリキュラムの実装によりノイズ除去パフォーマンスが向上し、FID スコアは 30.48 になりました。
要約(オリジナル)
Consistency models possess high capabilities for image generation, advancing sampling steps to a single step through their advanced techniques. Current advancements move one step forward consistency training techniques and eliminates the limitation of distillation training. Even though the proposed curriculum and noise scheduling in improved training techniques yield better results than basic consistency models, it lacks well balanced noise distribution and its consistency between curriculum. In this study, it is investigated the balance between high and low noise levels in noise distribution and offered polynomial noise distribution to maintain the stability. This proposed polynomial noise distribution is also supported with a predefined Karras noises to prevent unique noise levels arises with Karras noise generation algorithm. Furthermore, by elimination of learned noisy steps with a curriculum based on sinusoidal function increase the performance of the model in denoising. To make a fair comparison with the latest released consistency model training techniques, experiments are conducted with same hyper-parameters except curriculum and noise distribution. The models utilized during experiments are determined with low depth to prove the robustness of our proposed technique. The results show that the polynomial noise distribution outperforms the model trained with log-normal noise distribution, yielding a 33.54 FID score after 100,000 training steps with constant discretization steps. Additionally, the implementation of a sinusoidal-based curriculum enhances denoising performance, resulting in a FID score of 30.48.
arxiv情報
著者 | Mahmut S. Gokmen,Cody Bumgardner,Jie Zhang,Ge Wang,Jin Chen |
発行日 | 2024-04-09 14:44:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google