Align Your Flow: Scaling Continuous-Time Flow Map Distillation

要約

拡散およびフローベースのモデルは、最先端の生成モデリングアプローチとして浮上していますが、多くのサンプリングステップが必要です。
一貫性モデルは、これらのモデルを効率的なワンステップジェネレーターに蒸留できます。
ただし、フローおよび拡散ベースの方法とは異なり、そのパフォーマンスは、分析的および経験的に両方のステップを増やすと、必然的に劣化します。
フローマップは、1つのステップで任意の2つのノイズレベルを接続することにより、これらのアプローチを一般化し、すべてのステップ数にわたって効果を発揮し続けます。
このホワイトペーパーでは、トレーニングフローマップのための2つの新しい連続時間目標と、追加の新しいトレーニング手法を紹介し、既存の一貫性とフローマッチング目標を一般化します。
さらに、蒸留中のガイダンスのために低品質のモデルを使用して、自動配信がパフォーマンスを改善できることを実証し、サンプルの多様性を最小限に抑えて、敵対的な微調整によって追加のブーストを達成できることを実証します。
挑戦的な画像生成ベンチマークでフローをAlign Flowモデルと呼ばれるフローマップモデルを広範囲に検証し、小規模で効率的なニューラルネットワークを使用して、Imagenet 64×64と512×512の両方で最先端の数段階のパフォーマンスを実現します。
最後に、既存の非副作用されていないすべての非訓練された数段階のサンプラーをテキスト条件付けされた合成に上回るテキストから画像へのフローマップモデルを表示します。

要約(オリジナル)

Diffusion- and flow-based models have emerged as state-of-the-art generative modeling approaches, but they require many sampling steps. Consistency models can distill these models into efficient one-step generators; however, unlike flow- and diffusion-based methods, their performance inevitably degrades when increasing the number of steps, which we show both analytically and empirically. Flow maps generalize these approaches by connecting any two noise levels in a single step and remain effective across all step counts. In this paper, we introduce two new continuous-time objectives for training flow maps, along with additional novel training techniques, generalizing existing consistency and flow matching objectives. We further demonstrate that autoguidance can improve performance, using a low-quality model for guidance during distillation, and an additional boost can be achieved by adversarial finetuning, with minimal loss in sample diversity. We extensively validate our flow map models, called Align Your Flow, on challenging image generation benchmarks and achieve state-of-the-art few-step generation performance on both ImageNet 64×64 and 512×512, using small and efficient neural networks. Finally, we show text-to-image flow map models that outperform all existing non-adversarially trained few-step samplers in text-conditioned synthesis.

arxiv情報

著者 Amirmojtaba Sabour,Sanja Fidler,Karsten Kreis
発行日 2025-06-17 15:06:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク