Bespoke Solvers for Generative Flow Models

要約

拡散またはフローベースのモデルは強力な生成パラダイムですが、サンプルが高次元の常微分方程式または確率微分方程式 (ODE/SDE) の解として定義されるため、サンプルを適切に近似するには多数の関数評価 (NFE) が必要になるため、サンプリングが難しいことで有名です。

コストのかかるサンプリング プロセスを軽減する既存の方法には、モデルの蒸留と専用の ODE ソルバーの設計が含まれます。
ただし、蒸留はトレーニングにコストがかかり、場合によっては品質が低下する可能性がありますが、高品質のサンプルを生成するには専用のソルバーが依然として比較的大きな NFE を必要とします。
この論文では、特定の事前トレーニングされたフロー モデルの ODE に合わせたカスタム ODE ソルバーを構築するための新しいフレームワークである「ビスポーク ソルバー」を紹介します。
私たちのアプローチは、順序一貫性とパラメーター効率の高いソルバー (たとえば、80 個の学習可能なパラメーター) を最適化し、事前トレーニングされたモデルのトレーニングに必要な GPU 時間の約 1% でトレーニングされ、専用ソルバーと比較して近似と生成の品質を大幅に向上させます。

たとえば、CIFAR10 モデルのビスポーク ソルバーは、10 NFE で Fr\’echet Inception Distance (FID) が 2.73 のサンプルを生成しますが、わずか 20 でこのモデルの Ground Truth (GT) FID (2.59) の 1% に達します。
NFE。
より困難な ImageNet-64$\times$64 では、Bespoke は 10 NFE で 2.2 FID でサンプリングし、20 NFE で GT FID (1.71) の 2% 以内に収まります。

要約(オリジナル)

Diffusion or flow-based models are powerful generative paradigms that are notoriously hard to sample as samples are defined as solutions to high-dimensional Ordinary or Stochastic Differential Equations (ODEs/SDEs) which require a large Number of Function Evaluations (NFE) to approximate well. Existing methods to alleviate the costly sampling process include model distillation and designing dedicated ODE solvers. However, distillation is costly to train and sometimes can deteriorate quality, while dedicated solvers still require relatively large NFE to produce high quality samples. In this paper we introduce ‘Bespoke solvers’, a novel framework for constructing custom ODE solvers tailored to the ODE of a given pre-trained flow model. Our approach optimizes an order consistent and parameter-efficient solver (e.g., with 80 learnable parameters), is trained for roughly 1% of the GPU time required for training the pre-trained model, and significantly improves approximation and generation quality compared to dedicated solvers. For example, a Bespoke solver for a CIFAR10 model produces samples with Fr\’echet Inception Distance (FID) of 2.73 with 10 NFE, and gets to 1% of the Ground Truth (GT) FID (2.59) for this model with only 20 NFE. On the more challenging ImageNet-64$\times$64, Bespoke samples at 2.2 FID with 10 NFE, and gets within 2% of GT FID (1.71) with 20 NFE.

arxiv情報

著者 Neta Shaul,Juan Perez,Ricky T. Q. Chen,Ali Thabet,Albert Pumarola,Yaron Lipman
発行日 2023-10-29 16:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク