Gaussian Mixture Flow Matching Models

要約

拡散モデルは、除去分布をガウスとして概算し、その平均を予測しますが、フローマッチングモデルはガウス平均を流速として修復します。
ただし、離散化エラーのために数ステップのサンプリングでパフォーマンスが低下し、分類器のないガイダンス(CFG)の下で過剰飽和色を生成する傾向があります。
これらの制限に対処するために、新しいガウス混合フローマッチング(GMFLOW)モデルを提案します。平均を予測する代わりに、GMFLOWは動的ガウス混合物(GM)パラメーターを予測して、KLの発散損失で学習できるマルチモーダルフロー速度分布をキャプチャします。
GMFLOWは、単一のガウスが$ L_2 $ noの損失で学習される以前の拡散およびフローマッチングモデルを一般化することを実証します。
推論のために、正確な数段階のサンプリングのために分析除去分布と速度フィールドを活用するGM-SDE/ODEソルバーを導き出します。
さらに、CFGの過剰飽和問題を軽減し、画像生成の品質を向上させる新しい確率的ガイダンススキームを導入します。
広範な実験は、GMFLOWが生成品質のフローマッチングベースラインを一貫して上回ることを示しており、ImagENET 256 $ \ Times $ 256で6つのサンプリングステップのみで0.942の精度を達成します。

要約(オリジナル)

Diffusion models approximate the denoising distribution as a Gaussian and predict its mean, whereas flow matching models reparameterize the Gaussian mean as flow velocity. However, they underperform in few-step sampling due to discretization error and tend to produce over-saturated colors under classifier-free guidance (CFG). To address these limitations, we propose a novel Gaussian mixture flow matching (GMFlow) model: instead of predicting the mean, GMFlow predicts dynamic Gaussian mixture (GM) parameters to capture a multi-modal flow velocity distribution, which can be learned with a KL divergence loss. We demonstrate that GMFlow generalizes previous diffusion and flow matching models where a single Gaussian is learned with an $L_2$ denoising loss. For inference, we derive GM-SDE/ODE solvers that leverage analytic denoising distributions and velocity fields for precise few-step sampling. Furthermore, we introduce a novel probabilistic guidance scheme that mitigates the over-saturation issues of CFG and improves image generation quality. Extensive experiments demonstrate that GMFlow consistently outperforms flow matching baselines in generation quality, achieving a Precision of 0.942 with only 6 sampling steps on ImageNet 256$\times$256.

arxiv情報

著者 Hansheng Chen,Kai Zhang,Hao Tan,Zexiang Xu,Fujun Luan,Leonidas Guibas,Gordon Wetzstein,Sai Bi
発行日 2025-05-01 17:23:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク