要約
最近の研究では、(生成) 拡散モデルのノイズ除去プロセスにより、モデル内に意味のある (識別的な) 表現が誘導される可能性があることが示されていますが、これらの表現の品質は、最近の自己教師あり学習手法で学習されたものよりもまだ劣っています。
私たちは、生成のために大規模拡散モデルをトレーニングする際の主なボトルネックの 1 つは、これらの表現を効果的に学習することにあると主張します。
さらに、拡散モデルのみに依存して独立して学習するのではなく、高品質の外部視覚表現を組み込むことでトレーニングが容易になります。
私たちは、REPresentation Alignment (REPA) と呼ばれる直接的な正則化を導入することでこれを研究します。これは、ノイズ除去ネットワーク内のノイズの多い入力隠れ状態の投影を、外部の事前学習済みビジュアル エンコーダーから取得したクリーンな画像表現と位置合わせします。
結果は驚くべきものでした。私たちのシンプルな戦略は、DiT や SiT などの一般的な拡散およびフローベースのトランスフォーマーに適用すると、トレーニング効率と生成品質の両方で大幅な改善をもたらしました。
たとえば、私たちの方法では、SiT トレーニングを 17.5 倍以上高速化でき、40 万ステップ未満で 700 万ステップでトレーニングされた SiT-XL モデルのパフォーマンス (分類器なしのガイダンスなし) に匹敵します。
最終生成の品質に関しては、私たちのアプローチは、ガイダンス間隔を使用した分類子なしのガイダンスを使用して、FID=1.42 という最先端の結果を達成しました。
要約(オリジナル)
Recent studies have shown that the denoising process in (generative) diffusion models can induce meaningful (discriminative) representations inside the model, though the quality of these representations still lags behind those learned through recent self-supervised learning methods. We argue that one main bottleneck in training large-scale diffusion models for generation lies in effectively learning these representations. Moreover, training can be made easier by incorporating high-quality external visual representations, rather than relying solely on the diffusion models to learn them independently. We study this by introducing a straightforward regularization called REPresentation Alignment (REPA), which aligns the projections of noisy input hidden states in denoising networks with clean image representations obtained from external, pretrained visual encoders. The results are striking: our simple strategy yields significant improvements in both training efficiency and generation quality when applied to popular diffusion and flow-based transformers, such as DiTs and SiTs. For instance, our method can speed up SiT training by over 17.5$\times$, matching the performance (without classifier-free guidance) of a SiT-XL model trained for 7M steps in less than 400K steps. In terms of final generation quality, our approach achieves state-of-the-art results of FID=1.42 using classifier-free guidance with the guidance interval.
arxiv情報
著者 | Sihyun Yu,Sangkyung Kwak,Huiwon Jang,Jongheon Jeong,Jonathan Huang,Jinwoo Shin,Saining Xie |
発行日 | 2024-10-09 14:34:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google