Denoising Task Difficulty-based Curriculum for Training Diffusion Models

要約

拡散ベースの生成モデルは、生成モデリングの分野における強力なツールとして登場しました。
さまざまなタイムステップとノイズ レベルにわたるノイズ除去に関する広範な研究にもかかわらず、ノイズ除去タスクの相対的な難しさに関して矛盾が続いています。
さまざまな研究では、タイムステップが低いほど課題がより困難になると主張していますが、タイムステップが高いほど困難であると主張する研究もあります。
この矛盾に対処するために、私たちの研究では、タイムステップにわたる連続する確率分布間の収束挙動と相対エントロピーの変化に焦点を当てて、タスクの困難さの包括的な調査を行います。
私たちの観察研究では、より早いタイムステップでのノイズ除去は、より遅い収束とより高い相対エントロピーを特徴とする課題を引き起こし、これらのより低いタイムステップでタスクの難易度が増加することを示していることが明らかになりました。
これらの観察に基づいて、普及モデルのトレーニング プロセスを強化するために、カリキュラム学習から得たイージー トゥ ハード学習スキームを導入します。
タイムステップまたはノイズ レベルをクラスターに編成し、難易度の降順でモデルをトレーニングすることにより、順序を意識したトレーニング体制を促進し、簡単なノイズ除去タスクからより難しいタスクへと進み、それによってすべてのタイムステップにわたって同時に拡散モデルをトレーニングするという従来のアプローチから逸脱します。
私たちのアプローチは、普及トレーニング技術の既存の改善との直交性を維持しながら、カリキュラム学習の利点を活用することにより、パフォーマンスの向上とより迅速な収束につながります。
これらの利点を、無条件、クラス条件付き、テキストから画像への生成などの画像生成タスクにおける包括的な実験を通じて検証します。

要約(オリジナル)

Diffusion-based generative models have emerged as powerful tools in the realm of generative modeling. Despite extensive research on denoising across various timesteps and noise levels, a conflict persists regarding the relative difficulties of the denoising tasks. While various studies argue that lower timesteps present more challenging tasks, others contend that higher timesteps are more difficult. To address this conflict, our study undertakes a comprehensive examination of task difficulties, focusing on convergence behavior and changes in relative entropy between consecutive probability distributions across timesteps. Our observational study reveals that denoising at earlier timesteps poses challenges characterized by slower convergence and higher relative entropy, indicating increased task difficulty at these lower timesteps. Building on these observations, we introduce an easy-to-hard learning scheme, drawing from curriculum learning, to enhance the training process of diffusion models. By organizing timesteps or noise levels into clusters and training models with descending orders of difficulty, we facilitate an order-aware training regime, progressing from easier to harder denoising tasks, thereby deviating from the conventional approach of training diffusion models simultaneously across all timesteps. Our approach leads to improved performance and faster convergence by leveraging the benefits of curriculum learning, while maintaining orthogonality with existing improvements in diffusion training techniques. We validate these advantages through comprehensive experiments in image generation tasks, including unconditional, class-conditional, and text-to-image generation.

arxiv情報

著者 Jin-Young Kim,Hyojun Go,Soonwoo Kwon,Hyun-Gyoon Kim
発行日 2024-03-15 14:34:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク