要約
マルチモーダル速度ベクトルフィールドをモデル化することにより、古典的な修正フローマッチングを強化するフレームワークである、変動整流フローマッチングを研究します。
推論時に、速度ベクトルフィールドに沿った積分を介して通常の微分方程式を解くことにより、ソース分布からターゲット分布への「移動」サンプルを一致させる古典的な修正フローを一致させます。
トレーニング時に、速度ベクトルフィールドは、ソースから引き出された1つとターゲット分布からランダムに引き出されたサンプル間を直線的に補間することにより学習されます。
これにより、同じ場所で異なる方向を指す「「グラウンドトゥルース」」速度ベクトルフィールドにつながります。つまり、速度ベクトルフィールドはマルチモーダル/曖昧です。
ただし、トレーニングでは標準の平均2乗エラー損失を使用するため、学習速度ベクトルフィールドは平均「グラウンドトゥルース」方向であり、マルチモーダルではありません。
対照的に、マルチモーダルのフロー方向からの分散整流フローマッチングの学習とサンプル。
合成データ、MNIST、CIFAR-10、およびImagenetに、変動的な整流フローマッチングが魅力的な結果につながることを示しています。
要約(オリジナル)
We study Variational Rectified Flow Matching, a framework that enhances classic rectified flow matching by modeling multi-modal velocity vector-fields. At inference time, classic rectified flow matching ‘moves’ samples from a source distribution to the target distribution by solving an ordinary differential equation via integration along a velocity vector-field. At training time, the velocity vector-field is learnt by linearly interpolating between coupled samples one drawn from the source and one drawn from the target distribution randomly. This leads to ”ground-truth” velocity vector-fields that point in different directions at the same location, i.e., the velocity vector-fields are multi-modal/ambiguous. However, since training uses a standard mean-squared-error loss, the learnt velocity vector-field averages ”ground-truth” directions and isn’t multi-modal. In contrast, variational rectified flow matching learns and samples from multi-modal flow directions. We show on synthetic data, MNIST, CIFAR-10, and ImageNet that variational rectified flow matching leads to compelling results.
arxiv情報
著者 | Pengsheng Guo,Alexander G. Schwing |
発行日 | 2025-02-13 18:59:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google