Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow

要約

拡散モデルはビジュアル生成を大幅に改善しましたが、生成 ODE を解く際の計算量が多いため、生成速度が遅いことが妨げとなっています。
広く認識されているソリューションである整流は、ODE パスを直線化することで生成速度を向上させます。
その主要なコンポーネントには、1) フローマッチングの拡散形式の使用、2) $\boldsymbol v$-prediction の使用、3) 修正 (別名リフロー) の実行が含まれます。
この論文では、調整の成功は主に、事前トレーニングされた拡散モデルを使用してノイズとサンプルの一致したペアを取得し、その後、これらの一致したノイズとサンプルのペアで再トレーニングすることにあると主張します。
このことから、構成要素 1) および 2) は不要です。
さらに、真直さは矯正のための必須のトレーニング目標ではないことを強調します。
むしろ、これはフローマッチングモデルの特殊なケースです。
より重要なトレーニング目標は、DDPM や Sub-VP などのモデルでは本質的に曲線である 1 次近似 ODE パスを達成することです。
この洞察に基づいて、私たちは整流拡散を提案します。これは、整流の設計空間と適用範囲を一般化し、フローマッチングモデルに限定されるのではなく、より広いカテゴリの拡散モデルを包含します。
Stable Diffusion v1-5 および Stable Diffusion XL でメソッドを検証します。
私たちの方法は、修正されたフローベースの以前の作品 (InstaFlow など) のトレーニング手順を大幅に簡素化するだけでなく、さらに低いトレーニング コストで優れたパフォーマンスを実現します。
私たちのコードは https://github.com/G-U-N/Rectified-Diffusion で入手できます。

要約(オリジナル)

Diffusion models have greatly improved visual generation but are hindered by slow generation speed due to the computationally intensive nature of solving generative ODEs. Rectified flow, a widely recognized solution, improves generation speed by straightening the ODE path. Its key components include: 1) using the diffusion form of flow-matching, 2) employing $\boldsymbol v$-prediction, and 3) performing rectification (a.k.a. reflow). In this paper, we argue that the success of rectification primarily lies in using a pretrained diffusion model to obtain matched pairs of noise and samples, followed by retraining with these matched noise-sample pairs. Based on this, components 1) and 2) are unnecessary. Furthermore, we highlight that straightness is not an essential training target for rectification; rather, it is a specific case of flow-matching models. The more critical training target is to achieve a first-order approximate ODE path, which is inherently curved for models like DDPM and Sub-VP. Building on this insight, we propose Rectified Diffusion, which generalizes the design space and application scope of rectification to encompass the broader category of diffusion models, rather than being restricted to flow-matching models. We validate our method on Stable Diffusion v1-5 and Stable Diffusion XL. Our method not only greatly simplifies the training procedure of rectified flow-based previous works (e.g., InstaFlow) but also achieves superior performance with even lower training cost. Our code is available at https://github.com/G-U-N/Rectified-Diffusion.

arxiv情報

著者 Fu-Yun Wang,Ling Yang,Zhaoyang Huang,Mengdi Wang,Hongsheng Li
発行日 2024-10-11 16:17:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク