要約
この論文は、無限次元再現カーネル ヒルベルト空間内での無限小生成器学習を使用した、非線形確率システムの最適制御のための新しいアプローチを示します。
当社の学習フレームワークは、システム ダイナミクスとステージ コスト関数のデータ サンプルを活用し、制御ペナルティと制約のみが提供されます。
提案手法は、無限次元仮説空間における制御されたフォッカー・プランク・コルモゴロフ方程式の拡散演算子を直接学習します。
この演算子は、制御システムの状態の確率尺度の連続時間発展をモデル化します。
我々は、このアプローチが最新の凸演算子理論のハミルトン・ヤコビ・ベルマン再帰とシームレスに統合され、最適な制御問題に対するデータ駆動型のソリューションを可能にすることを実証します。
さらに、私たちの統計学習フレームワークには、特殊なケースとして、制御されていない順方向無限小生成器用のノンパラメトリック推定器が含まれています。
合成微分方程式からシミュレートされたロボットシステムに至るまでの数値実験は、最適な制御のための最新のデータ駆動型および古典的な非線形プログラミング手法の両方と比較した、私たちのアプローチの利点を示しています。
要約(オリジナル)
This paper presents a novel approach for optimal control of nonlinear stochastic systems using infinitesimal generator learning within infinite-dimensional reproducing kernel Hilbert spaces. Our learning framework leverages data samples of system dynamics and stage cost functions, with only control penalties and constraints provided. The proposed method directly learns the diffusion operator of a controlled Fokker-Planck-Kolmogorov equation in an infinite-dimensional hypothesis space. This operator models the continuous-time evolution of the probability measure of the control system’s state. We demonstrate that this approach seamlessly integrates with modern convex operator-theoretic Hamilton-Jacobi-Bellman recursions, enabling a data-driven solution to the optimal control problem. Furthermore, our statistical learning framework includes nonparametric estimators for uncontrolled forward infinitesimal generators as a special case. Numerical experiments, ranging from synthetic differential equations to simulated robotic systems, showcase the advantages of our approach compared to both modern data-driven and classical nonlinear programming methods for optimal control.
arxiv情報
著者 | Petar Bevanda,Nicolas Hoischen,Tobias Wittmann,Jan Brüdigam,Sandra Hirche,Boris Houska |
発行日 | 2024-12-05 10:22:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google