要約
希望の結果に向けてサンプリングを操縦するためのガイダンスの使用は、特に画像や軌道生成などのアプリケーションで拡散モデル内で広く調査されています。
ただし、トレーニング中にガイダンスを組み込むことは、比較的目立たないままです。
この作業では、エネルギー誘導フローマッチングを導入します。これは、フローモデルのトレーニングを強化し、推論時間にガイダンスの必要性を排除する新しいアプローチです。
エネルギー誘導確率パスをガウス経路として近似することにより、フローポリシーに対応する条件速度フィールドを学習します。
学習ガイド付き軌道は、補強学習のように、データとエネルギー関数の組み合わせによってターゲット分布が定義されるタスクに魅力的です。
拡散ベースのポリシーは、最近、表現力のある力とマルチモーダルアクション分布をキャプチャする能力に注目を集めています。
通常、これらのポリシーは、加重目標を使用して、またはポリシーによってサンプリングされたアクションを介したバックプロパジングの勾配を使用して最適化されます。
別の方法として、エネルギー誘導フローマッチングに基づいたオフライン強化学習アルゴリズムであるFlowQを提案します。
私たちの方法は競争力のあるパフォーマンスを達成しますが、ポリシートレーニング時間はフローサンプリングステップの数で一定です。
要約(オリジナル)
The use of guidance to steer sampling toward desired outcomes has been widely explored within diffusion models, especially in applications such as image and trajectory generation. However, incorporating guidance during training remains relatively underexplored. In this work, we introduce energy-guided flow matching, a novel approach that enhances the training of flow models and eliminates the need for guidance at inference time. We learn a conditional velocity field corresponding to the flow policy by approximating an energy-guided probability path as a Gaussian path. Learning guided trajectories is appealing for tasks where the target distribution is defined by a combination of data and an energy function, as in reinforcement learning. Diffusion-based policies have recently attracted attention for their expressive power and ability to capture multi-modal action distributions. Typically, these policies are optimized using weighted objectives or by back-propagating gradients through actions sampled by the policy. As an alternative, we propose FlowQ, an offline reinforcement learning algorithm based on energy-guided flow matching. Our method achieves competitive performance while the policy training time is constant in the number of flow sampling steps.
arxiv情報
著者 | Marvin Alles,Nutan Chen,Patrick van der Smagt,Botond Cseke |
発行日 | 2025-05-20 09:43:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google