要約
本論文では,時間に対して独立かつ同次に分布するランダムなパラメータを持つ離散時間線形システムと2次基準の無限地平最適制御問題を研究する.この一般的な設定において,強化学習手法の一つである政策勾配法を適用し,パラメータの統計的情報の知識を必要とせずに最適制御を探索する.我々は状態過程のサブガウス性を調べ、既存の結果よりも弱く検証しやすい仮定に基づいて、この手法の大域的な線形収束保証を確立する。この結果を説明するために数値実験を行う。
要約(オリジナル)
This paper studies an infinite horizon optimal control problem for discrete-time linear system and quadratic criteria, both with random parameters which are independent and identically distributed with respect to time. In this general setting, we apply the policy gradient method, a reinforcement learning technique, to search for the optimal control without requiring knowledge of statistical information of the parameters. We investigate the sub-Gaussianity of the state process and establish global linear convergence guarantee for this approach based on assumptions that are weaker and easier to verify compared to existing results. Numerical experiments are presented to illustrate our result.
arxiv情報
著者 | Deyue Li |
発行日 | 2024-03-01 06:18:40+00:00 |
arxivサイト | arxiv_id(pdf) |