要約
確率的最適制御(SOC)の問題は、自律的なロボットや財務モデルなどの不確実性の影響を受けるシステムで発生します。
動的プログラミングのような従来の方法は、次元の呪いのために、高次元の非線形システムに扱いにくいことがよくあります。
この論文では、スケーラブルなサンプリングベースの代替としてパス積分制御フレームワークを調査します。
SOCの問題を確率的軌跡に対する期待として再定式化することにより、モンテカルロサンプリングを介した効率的なポリシー統合を可能にし、GPUの並列化を通じてリアルタイムの実装をサポートします。
このフレームワークは、6つのクラスのSOC問題に適用します。チャンスが制約されたSOC、確率的差分ゲーム、欺ceptiveコントロール、タスク階層制御、ステルス攻撃のリスク軽減、離散時間LQR。
離散時間の場合のサンプルの複雑さ分析も提供されます。
これらの貢献は、複雑で不確実な環境におけるシミュレーター駆動型の自律性の基礎を確立します。
要約(オリジナル)
Stochastic Optimal Control (SOC) problems arise in systems influenced by uncertainty, such as autonomous robots or financial models. Traditional methods like dynamic programming are often intractable for high-dimensional, nonlinear systems due to the curse of dimensionality. This dissertation explores the path integral control framework as a scalable, sampling-based alternative. By reformulating SOC problems as expectations over stochastic trajectories, it enables efficient policy synthesis via Monte Carlo sampling and supports real-time implementation through GPU parallelization. We apply this framework to six classes of SOC problems: Chance-Constrained SOC, Stochastic Differential Games, Deceptive Control, Task Hierarchical Control, Risk Mitigation of Stealthy Attacks, and Discrete-Time LQR. A sample complexity analysis for the discrete-time case is also provided. These contributions establish a foundation for simulator-driven autonomy in complex, uncertain environments.
arxiv情報
著者 | Apurva Patil |
発行日 | 2025-04-24 00:22:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google