Improving the Training of Rectified Flows

要約

拡散モデルは画像やビデオの生成に大きな期待を寄せていますが、最先端のモデルからサンプリングするには、高価な生成 ODE の数値統合が必要です。
この問題に取り組む 1 つのアプローチは、切り捨て誤差の影響を受けにくい滑らかな ODE パスを繰り返し学習する修正フローです。
ただし、修正されたフローでは依然として比較的多数の関数評価 (NFE) が必要です。
この研究では、整流されたフローをトレーニングするための改良された手法を提案し、低い NFE 設定でも知識蒸留手法と競合できるようにします。
私たちの主な洞察は、現実的な設定では、整流されたフローをトレーニングするためのリフロー アルゴリズムの 1 回の反復で、ほぼ直線の軌道を学習するのに十分であるということです。
したがって、複数のリフロー反復を使用する現在の慣行は不要です。
したがって、U 字型タイムステップ分布や LPIPS-Huber プレメトリックなど、整流フローの 1 ラウンド トレーニングを改善する手法を提案します。
これらの技術により、CIFAR-10 の 1 NFE 設定で、以前の 2 整流フローの FID が最大 72% 改善されました。
ImageNet 64$\times$64 では、当社の改善された整流は、1 ステップ設定と 2 ステップ設定の両方で、コンシステンシー蒸留や漸進蒸留などの最先端の蒸留方法を上回り、改良されたコンシステンシー トレーニング (iCT) のパフォーマンスに匹敵します。
) FID で。
コードは https://github.com/sangyun884/rfpp で入手できます。

要約(オリジナル)

Diffusion models have shown great promise for image and video generation, but sampling from state-of-the-art models requires expensive numerical integration of a generative ODE. One approach for tackling this problem is rectified flows, which iteratively learn smooth ODE paths that are less susceptible to truncation error. However, rectified flows still require a relatively large number of function evaluations (NFEs). In this work, we propose improved techniques for training rectified flows, allowing them to compete with knowledge distillation methods even in the low NFE setting. Our main insight is that under realistic settings, a single iteration of the Reflow algorithm for training rectified flows is sufficient to learn nearly straight trajectories; hence, the current practice of using multiple Reflow iterations is unnecessary. We thus propose techniques to improve one-round training of rectified flows, including a U-shaped timestep distribution and LPIPS-Huber premetric. With these techniques, we improve the FID of the previous 2-rectified flow by up to 72% in the 1 NFE setting on CIFAR-10. On ImageNet 64$\times$64, our improved rectified flow outperforms the state-of-the-art distillation methods such as consistency distillation and progressive distillation in both one-step and two-step settings and rivals the performance of improved consistency training (iCT) in FID. Code is available at https://github.com/sangyun884/rfpp.

arxiv情報

著者 Sangyun Lee,Zinan Lin,Giulia Fanti
発行日 2024-05-30 17:56:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク