要約
状態分布制約を伴う最適制御問題は、その表現力に注目が集まっていますが、解決策は線形近似に依存しています。
私たちは、流通における動的システムの状態を制御するという問題に、逐次的な意思決定の観点からアプローチします。
最適制御問題を適切なマルコフ決定プロセス (MDP) として定式化します。ここで、アクションは状態フィードバック制御ポリシーに対応します。
次に、モンテカルロ木探索 (MCTS) を使用して MDP を解きます。
これにより、私たちの方法があらゆる力学モデルに適したものになります。
私たちのアプローチの重要なコンポーネントは、アルゴリズムが状態の分布をガイドできるようにする、分布空間における計算が簡単な新しい距離メトリックです。
私たちは線形と非線形の両方のダイナミクスの下でアルゴリズムを実験的にテストします。
要約(オリジナル)
Optimal control problems with state distribution constraints have attracted interest for their expressivity, but solutions rely on linear approximations. We approach the problem of driving the state of a dynamical system in distribution from a sequential decision-making perspective. We formulate the optimal control problem as an appropriate Markov decision process (MDP), where the actions correspond to the state-feedback control policies. We then solve the MDP using Monte Carlo tree search (MCTS). This renders our method suitable for any dynamics model. A key component of our approach is a novel, easy to compute, distance metric in the distribution space that allows our algorithm to guide the distribution of the state. We experimentally test our algorithm under both linear and nonlinear dynamics.
arxiv情報
著者 | Alexandros E. Tzikas,Liam A. Kruse,Mansur Arief,Mykel J. Kochenderfer,Stephen Boyd |
発行日 | 2024-12-09 05:30:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google