要約
拡散モデルは、画像生成とノイズ除去のための強力なツールとして登場しました。
通常、生成モデルは開始ノイズ分布とターゲット データ分布の間の軌跡を学習します。
最近、Liu ら。
(2023b) は、最適な輸送と密接に関係する一連の凸最適化問題を使用して、ノイズからデータまでの直線的な流れの軌跡を学習することを目的とした、新しい代替生成モデル Rectified Flow (RF) を設計しました。
軌道が曲がっている場合、満足のいく生成品質を達成するには、多数のオイラー離散化ステップまたは指数積分器などの新しい戦略を使用する必要があります。
対照的に、RF は理論的には連続的な修正によって軌道を直線化し、サンプリング中の関数評価 (NFE) の数を減らすことが示されています。
また、十分に小さい誤差内で根本的な最適化問題を解決できれば、RF が 2 回の整流で真直度を改善できる可能性があることも経験的に示されています。
この論文では、2 つの重要な理論的貢献を行います。1) RF のサンプリング分布とターゲット分布の間の Wasserstein 距離の最初の理論的分析を提供します。
私たちのエラー率は、離散化ステップの数と、元の研究よりも強い真直性の新しい定式化によって特徴付けられます。
2) 穏やかな規則性の仮定の下で、有限の一次モーメントを持つガウスから任意の一般ターゲット分布への整流された流れ (ガウスの混合など) では、直線の流れを達成するには 2 回の整流で十分であることを示します。
以前の経験的発見。
さらに、理論的発見を検証するために、シミュレートされたデータセットと実際のデータセットの両方に関する経験的結果も提示します。
要約(オリジナル)
Diffusion models have emerged as a powerful tool for image generation and denoising. Typically, generative models learn a trajectory between the starting noise distribution and the target data distribution. Recently Liu et al. (2023b) designed a novel alternative generative model Rectified Flow (RF), which aims to learn straight flow trajectories from noise to data using a sequence of convex optimization problems with close ties to optimal transport. If the trajectory is curved, one must use many Euler discretization steps or novel strategies, such as exponential integrators, to achieve a satisfactory generation quality. In contrast, RF has been shown to theoretically straighten the trajectory through successive rectifications, reducing the number of function evaluations (NFEs) while sampling. It has also been shown empirically that RF may improve the straightness in two rectifications if one can solve the underlying optimization problem within a sufficiently small error. In this paper, we make two key theoretical contributions: 1) we provide the first theoretical analysis of the Wasserstein distance between the sampling distribution of RF and the target distribution. Our error rate is characterized by the number of discretization steps and a new formulation of straightness stronger than that in the original work. 2) under a mild regularity assumption, we show that for a rectified flow from a Gaussian to any general target distribution with finite first moment (e.g. mixture of Gaussians), two rectifications are sufficient to achieve a straight flow, which is in line with the previous empirical findings. Additionally, we also present empirical results on both simulated and real datasets to validate our theoretical findings.
arxiv情報
著者 | Vansh Bansal,Saptarshi Roy,Purnamrita Sarkar,Alessandro Rinaldo |
発行日 | 2024-11-18 15:35:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google