要約
確率的最適制御 (SOC) における一般的な問題を解決するためのシミュレーション不要のアルゴリズムを提案します。
既存の方法とは異なり、私たちのアプローチは随伴問題の解決を必要とせず、むしろギルサノフの定理を活用して、ポリシー上の SOC 目標の勾配を直接計算します。
これにより、ニューラル SDE フレームワークで使用される確率微分方程式 (SDE) による高価な逆伝播ステップが完全に回避されるため、ニューラル ネットワークによってパラメーター化された制御ポリシーの最適化を高速化できます。
特に、SOC の問題を高次元かつ長期的に解決できるようになります。
標準的な確率的最適制御問題、シュオーディンガー・フェルマープロセスの構築による非正規化分布からのサンプリング、事前訓練された拡散モデルの微調整など、アプリケーションのさまざまな領域におけるアプローチの効率性を実証します。
すべての場合において、私たちの方法は計算時間とメモリ効率の両方において既存の方法よりも優れていることが示されています。
要約(オリジナル)
We propose a simulation-free algorithm for the solution of generic problems in stochastic optimal control (SOC). Unlike existing methods, our approach does not require the solution of an adjoint problem, but rather leverages Girsanov theorem to directly calculate the gradient of the SOC objective on-policy. This allows us to speed up the optimization of control policies parameterized by neural networks since it completely avoids the expensive back-propagation step through stochastic differential equations (SDEs) used in the Neural SDE framework. In particular, it enables us to solve SOC problems in high dimension and on long time horizons. We demonstrate the efficiency of our approach in various domains of applications, including standard stochastic optimal control problems, sampling from unnormalized distributions via construction of a Schr\’odinger-F\’ollmer process, and fine-tuning of pre-trained diffusion models. In all cases our method is shown to outperform the existing methods in both the computing time and memory efficiency.
arxiv情報
著者 | Mengjian Hua,Matthieu Laurière,Eric Vanden-Eijnden |
発行日 | 2024-10-07 16:16:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google