要約
ビジュアル生成における拡散モデルの成功を基礎として、フローベースのモデルは、ビジュアルの品質と推論速度の両方の点で競争力のある、またはより優れたパフォーマンスを達成する、別の著名な生成モデルのファミリーとして再浮上しています。
フローマッチングを通じて速度フィールドを学習することにより、フローベースのモデルはより直線的なサンプリング軌道を生成する傾向があり、これはサンプリング プロセス中に有利になります。
ただし、高速サンプラーが十分に開発されている拡散モデルとは異なり、フローベースの生成モデルの効率的なサンプリングはほとんど検討されていません。
このペーパーでは、サンプリング品質を向上させながらフローベースのモデルのサンプリングを高速化する、FlowTurbo と呼ばれるフレームワークを提案します。
私たちの主な観察は、フローベースのモデルの速度予測器の出力がサンプリング中に安定し、軽量の速度リファイナーによる速度の推定が可能になるということです。
さらに、推論時間をさらに短縮するために、疑似コレクタやサンプル認識コンパイルなどのいくつかの手法を導入します。
FlowTurbo はマルチステップ サンプリング パラダイムを変更しないため、画像編集、修復などのさまざまなタスクに効果的に適用できます。FlowTurbo をさまざまなフローベースのモデルに統合することにより、53.1%$\sim の加速率が得られます。
クラス条件付き生成では $58.3%、テキストから画像への生成では 29.8%$\sim$38.5%。
特に、FlowTurbo は ImageNet 上で 100 (ms / img) で FID 2.12、38 (ms / img) で FID 3.93 に達し、リアルタイム画像生成を達成し、新たな最先端技術を確立しました。
コードは https://github.com/shiml20/FlowTurbo で入手できます。
要約(オリジナル)
Building on the success of diffusion models in visual generation, flow-based models reemerge as another prominent family of generative models that have achieved competitive or better performance in terms of both visual quality and inference speed. By learning the velocity field through flow-matching, flow-based models tend to produce a straighter sampling trajectory, which is advantageous during the sampling process. However, unlike diffusion models for which fast samplers are well-developed, efficient sampling of flow-based generative models has been rarely explored. In this paper, we propose a framework called FlowTurbo to accelerate the sampling of flow-based models while still enhancing the sampling quality. Our primary observation is that the velocity predictor’s outputs in the flow-based models will become stable during the sampling, enabling the estimation of velocity via a lightweight velocity refiner. Additionally, we introduce several techniques including a pseudo corrector and sample-aware compilation to further reduce inference time. Since FlowTurbo does not change the multi-step sampling paradigm, it can be effectively applied for various tasks such as image editing, inpainting, etc. By integrating FlowTurbo into different flow-based models, we obtain an acceleration ratio of 53.1%$\sim$58.3% on class-conditional generation and 29.8%$\sim$38.5% on text-to-image generation. Notably, FlowTurbo reaches an FID of 2.12 on ImageNet with 100 (ms / img) and FID of 3.93 with 38 (ms / img), achieving the real-time image generation and establishing the new state-of-the-art. Code is available at https://github.com/shiml20/FlowTurbo.
arxiv情報
著者 | Wenliang Zhao,Minglei Shi,Xumin Yu,Jie Zhou,Jiwen Lu |
発行日 | 2024-09-26 17:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google