要約
フローマッチングモデルは、確率的生成モデルの間で画像生成タスクに大きな可能性を示しています。
継続的な正規化フローのアイデアに基づいて、フローマッチングモデルは、拡散モデルの輸送経路を、単純な事前分布からデータへの一般化します。
文献のほとんどのフローマッチングモデルは、標準ガウスのような単純なソース分布からの流れを学習するとき、ターゲットデータの基礎となる構造/マニホールドを明示的にモデル化しません。
これは、特に多くの高次元の現実世界のデータセットで非効率的な学習につながります。これは、しばしば低次元の多様体に存在します。
基礎となるマルチモーダル分布を含むデータを含むマニホールドを組み込むことの既存の戦略には、多くの場合、高価なトレーニングが必要であり、したがって、しばしば最適ではないパフォーマンスにつながります。
この目的のために、\ texttt {latent-cfm}を提示します。これは、前提条件の深い潜在変数モデルを使用してマルチモーダルデータ構造を組み込むための単純化されたトレーニング/推論戦略を提供します。
マルチモーダル合成データと広く使用されている画像ベンチマークデータセットの実験を通じて、\ texttt {latent-cfm}は、最先端のフローマッチングモデルよりも大幅に少ないトレーニング($ \ sim 50 \%$ seply)および計算で生成品質を改善することを示します。
2Dダーシーフローデータセットを使用して、私たちのアプローチが競合的アプローチよりも身体的に正確なサンプルを生成することを実証します。
さらに、潜在的な空間分析を通じて、私たちのアプローチは、潜在的な特徴を条件とする条件付き画像生成に使用できることを実証します。
要約(オリジナル)
Flow matching models have shown great potential in image generation tasks among probabilistic generative models. Building upon the ideas of continuous normalizing flows, flow matching models generalize the transport path of the diffusion models from a simple prior distribution to the data. Most flow matching models in the literature do not explicitly model the underlying structure/manifold in the target data when learning the flow from a simple source distribution like the standard Gaussian. This leads to inefficient learning, especially for many high-dimensional real-world datasets, which often reside in a low-dimensional manifold. Existing strategies of incorporating manifolds, including data with underlying multi-modal distribution, often require expensive training and hence frequently lead to suboptimal performance. To this end, we present \texttt{Latent-CFM}, which provides simplified training/inference strategies to incorporate multi-modal data structures using pretrained deep latent variable models. Through experiments on multi-modal synthetic data and widely used image benchmark datasets, we show that \texttt{Latent-CFM} exhibits improved generation quality with significantly less training ($\sim 50\%$ less in some cases) and computation than state-of-the-art flow matching models. Using a 2d Darcy flow dataset, we demonstrate that our approach generates more physically accurate samples than competitive approaches. In addition, through latent space analysis, we demonstrate that our approach can be used for conditional image generation conditioned on latent features.
arxiv情報
著者 | Anirban Samaddar,Yixuan Sun,Viktor Nilsson,Sandeep Madireddy |
発行日 | 2025-05-07 14:59:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google