Flow Diverse and Efficient: Learning Momentum Flow Matching via Stochastic Velocity Field Sampling

要約

最近、特にFlux 1.0やSD 3.0などの一連のRFモデルによって生成された驚くべき画像で、直線サンプリングにおける高効率の優位性により、整流フロー(RF)は、フローベースの拡散モデル間で新しい最先端の最先端の拡散モデルとして浮上しています。
ノイズの多いデータ分布と自然なデータ分布の間の直線接続は直感的で、速く、最適化が容易ですが、1)多様性の懸念につながります。
2)マルチスケールノイズモデリングの懸念。直線フローは、2つの分布$ \ bm \ pi_0 $および$ \ bm \ pi_1 $の間の定速度フィールド$ \ bm v $を最適化するだけであるため。
この作業では、離散化されたRFを提示します。これは、整流フローの新しいファミリー(各拡散ステップの以前の速度成分とランダム速度成分を参照するため、運動量流モデルとも呼ばれます)を提示します。
$ \ bm x $にノイズが直接重ねられている前のケースとは異なり、サブパスの速度$ \ bm v $にノイズを導入して、多様性とマルチスケールのノイズモデリング能力を改善するために方向を変えます。
いくつかの代表的なデータセットでの実験結果は、ランダム速度フィールドをサンプリングすることで一致するモーメンタムフローの学習が、多様で効率的な軌跡を生成し、一貫して高品質で多様な結果を生成できることを示しています。
コードはhttps://github.com/liuruixun/momentum-fmで入手できます。

要約(オリジナル)

Recently, the rectified flow (RF) has emerged as the new state-of-the-art among flow-based diffusion models due to its high efficiency advantage in straight path sampling, especially with the amazing images generated by a series of RF models such as Flux 1.0 and SD 3.0. Although a straight-line connection between the noisy and natural data distributions is intuitive, fast, and easy to optimize, it still inevitably leads to: 1) Diversity concerns, which arise since straight-line paths only cover a fairly restricted sampling space. 2) Multi-scale noise modeling concerns, since the straight line flow only needs to optimize the constant velocity field $\bm v$ between the two distributions $\bm\pi_0$ and $\bm\pi_1$. In this work, we present Discretized-RF, a new family of rectified flow (also called momentum flow models since they refer to the previous velocity component and the random velocity component in each diffusion step), which discretizes the straight path into a series of variable velocity field sub-paths (namely “momentum fields”) to expand the search space, especially when close to the distribution $p_\text{noise}$. Different from the previous case where noise is directly superimposed on $\bm x$, we introduce noise on the velocity $\bm v$ of the sub-path to change its direction in order to improve the diversity and multi-scale noise modeling abilities. Experimental results on several representative datasets demonstrate that learning momentum flow matching by sampling random velocity fields will produce trajectories that are both diverse and efficient, and can consistently generate high-quality and diverse results. Code is available at https://github.com/liuruixun/momentum-fm.

arxiv情報

著者 Zhiyuan Ma,Ruixun Liu,Sixian Liu,Jianjun Li,Bowen Zhou
発行日 2025-06-10 13:44:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク