PFGM++: Unlocking the Potential of Physics-Inspired Generative Models

要約

拡散モデルとポアソン流生成モデル (PFGM) を統合する PFGM++ と呼ばれる、物理学に着想を得た生成モデルの新しいファミリーを紹介します。
これらのモデルは、$D$ 追加変数の単純なスカラー ノルムで進行を制御しながら、$N{+}D$ 次元空間にパスを埋め込むことにより、$N$ 次元データの生成軌道を実現します。
新しいモデルは、$D{=}1$ の場合は PFGM に縮小され、$D{\to}\infty$ の場合は拡散モデルに縮小されます。
$D$ を選択する柔軟性により、堅牢性と剛性をトレードオフすることができます。これは、$D$ を大きくすると、データと追加の変数ノルムとの間の結合がより集中するためです。
PFGM で使用される偏りのある大きなバッチ フィールド ターゲットを省略し、代わりに拡散モデルに似た偏りのない摂動ベースの目的を提供します。
$D$ のさまざまな選択肢を調べるために、適切に調整されたハイパーパラメーターを拡散モデル ($D{\to} \infty$) から任意の有限 $D$ 値に転送するための直接アライメント方法を提供します。
私たちの実験では、$D$ が有限であるモデルは、CIFAR-10/FFHQ $64{\times}64$ データセットの以前の最先端の拡散モデルよりも優れている可能性があり、$D の場合の FID スコアは $1.91/2.43$ であることが示されています。
{=}2048/128$.
クラス条件設定では、$D{=}2048$ は、CIFAR-10 で現在の最先端の FID $1.74$ を生成します。
さらに、$D$ が小さいモデルほど、モデリング エラーに対するロバスト性が向上することを示しています。
コードは https://github.com/Newbeeer/pfgmpp で入手できます

要約(オリジナル)

We introduce a new family of physics-inspired generative models termed PFGM++ that unifies diffusion models and Poisson Flow Generative Models (PFGM). These models realize generative trajectories for $N$ dimensional data by embedding paths in $N{+}D$ dimensional space while still controlling the progression with a simple scalar norm of the $D$ additional variables. The new models reduce to PFGM when $D{=}1$ and to diffusion models when $D{\to}\infty$. The flexibility of choosing $D$ allows us to trade off robustness against rigidity as increasing $D$ results in more concentrated coupling between the data and the additional variable norms. We dispense with the biased large batch field targets used in PFGM and instead provide an unbiased perturbation-based objective similar to diffusion models. To explore different choices of $D$, we provide a direct alignment method for transferring well-tuned hyperparameters from diffusion models ($D{\to} \infty$) to any finite $D$ values. Our experiments show that models with finite $D$ can be superior to previous state-of-the-art diffusion models on CIFAR-10/FFHQ $64{\times}64$ datasets, with FID scores of $1.91/2.43$ when $D{=}2048/128$. In class-conditional setting, $D{=}2048$ yields current state-of-the-art FID of $1.74$ on CIFAR-10. In addition, we demonstrate that models with smaller $D$ exhibit improved robustness against modeling errors. Code is available at https://github.com/Newbeeer/pfgmpp

arxiv情報

著者 Yilun Xu,Ziming Liu,Yonglong Tian,Shangyuan Tong,Max Tegmark,Tommi Jaakkola
発行日 2023-02-10 16:45:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク