要約
リーチと回避の制約を受ける確率的でマルコフのシステムを最適に制御するためのモデルフリーのアプローチを開発します。
具体的には、状態の軌道は、有限時間の地平線内でターゲットセットに到達しながら、安全なセット内にとどまる必要があります。
これらの制約の時間依存性の性質により、一般に、この制約された確率制御問題の最適なポリシーは非マルコビアンであり、計算の複雑さが向上することを示します。
この課題に対処するために、Arxiv:2402.19360の状態増強技術を適用し、拡張状態空間に制約されたマルコフ決定プロセス(CMDP)として問題を再定式化します。
この変革により、マルコビアの政策を検索することができ、非マルコビアの政策の複雑さを回避できます。
システムモデルなしで最適なポリシーを学習し、軌道データのみを使用して、ログバリアのポリシーグラデーションアプローチを開発します。
適切な仮定の下で、ポリシーパラメーターが最適なパラメーターに収束し、システムの軌跡が高い確率で確率的リーチと回避の制約を満たすことを保証することを証明します。
要約(オリジナル)
We develop a model-free approach to optimally control stochastic, Markovian systems subject to a reach-avoid constraint. Specifically, the state trajectory must remain within a safe set while reaching a target set within a finite time horizon. Due to the time-dependent nature of these constraints, we show that, in general, the optimal policy for this constrained stochastic control problem is non-Markovian, which increases the computational complexity. To address this challenge, we apply the state-augmentation technique from arXiv:2402.19360, reformulating the problem as a constrained Markov decision process (CMDP) on an extended state space. This transformation allows us to search for a Markovian policy, avoiding the complexity of non-Markovian policies. To learn the optimal policy without a system model, and using only trajectory data, we develop a log-barrier policy gradient approach. We prove that under suitable assumptions, the policy parameters converge to the optimal parameters, while ensuring that the system trajectories satisfy the stochastic reach-avoid constraint with high probability.
arxiv情報
著者 | Tingting Ni,Maryam Kamgarpour |
発行日 | 2025-03-06 17:04:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google