要約
分類器フリーガイダンス(CFG)は、画像の忠実度と制御性を向上させるための拡散/フローモデルで広く採用されている手法です。
この作業では、まず、接地の流れを導き出すことができるガウス混合物で訓練されたフローマッチングモデルに対するCFGの効果を分析的に研究します。
トレーニングの初期段階では、フロー推定が不正確である場合、CFGはサンプルを誤った軌跡に向けて指示することが観察されます。
この観察結果に基づいて、CFG-Zero *を提案します。CFG-Zero *は、2つの寄与を備えた改善されたCFGを提案します。(a)スカラーが最適化されている場合、推定速度の不正確さを修正するように最適化されているため、名前の *。
(b)ODEソルバーの最初のいくつかのステップをゼロにすることを伴うゼロイン。
テキストからイメージ(Lumina-Next、安定した拡散3、およびフラックス)とテキストからビデオへの(WAN-2.1)生成の両方での実験は、CFG-Zero*がCFGを常に上回ることを示しており、ガイドフローマッチングモデルにおけるその有効性を強調しています。
(コードはgithub.com/weichenfan/cfg-zero-starで入手できます)
要約(オリジナル)
Classifier-Free Guidance (CFG) is a widely adopted technique in diffusion/flow models to improve image fidelity and controllability. In this work, we first analytically study the effect of CFG on flow matching models trained on Gaussian mixtures where the ground-truth flow can be derived. We observe that in the early stages of training, when the flow estimation is inaccurate, CFG directs samples toward incorrect trajectories. Building on this observation, we propose CFG-Zero*, an improved CFG with two contributions: (a) optimized scale, where a scalar is optimized to correct for the inaccuracies in the estimated velocity, hence the * in the name; and (b) zero-init, which involves zeroing out the first few steps of the ODE solver. Experiments on both text-to-image (Lumina-Next, Stable Diffusion 3, and Flux) and text-to-video (Wan-2.1) generation demonstrate that CFG-Zero* consistently outperforms CFG, highlighting its effectiveness in guiding Flow Matching models. (Code is available at github.com/WeichenFan/CFG-Zero-star)
arxiv情報
著者 | Weichen Fan,Amber Yijia Zheng,Raymond A. Yeh,Ziwei Liu |
発行日 | 2025-03-24 16:59:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google