要約
本論文では、最先端のモデルベース強化学習(MBRL)アルゴリズムであるMonte Carlo Probabilistic Inference for Learning Control (MC-PILCO)を、非線形システムに適した高速軌道最適化手法であるiterative Linear Quadratic Regulator (iLQR)と統合することで、政策最適化の収束の遅さに対処する。提案手法であるExploration-Boosted MC-PILCO(EB-MC-PILCO)は、iLQRを活用して、情報量の多い探索的軌道を生成し、ポリシーを初期化することで、必要な最適化ステップ数を大幅に削減する。カートポールタスクの実験により、EB-MC-PILCOは標準的なMC-PILCOと比較して収束を加速し、両手法が4回の試行でタスクを解くとき、実行時間を最大$bm{45.9%}$短縮することが実証された。また、EB-MC-PILCOは、MC-PILCOがより少ない反復で収束する場合でも、タスクをより速く解きながら、試行間で$bm{100%}$成功率を維持する。
要約(オリジナル)
This paper addresses the slow policy optimization convergence of Monte Carlo Probabilistic Inference for Learning Control (MC-PILCO), a state-of-the-art model-based reinforcement learning (MBRL) algorithm, by integrating it with iterative Linear Quadratic Regulator (iLQR), a fast trajectory optimization method suitable for nonlinear systems. The proposed method, Exploration-Boosted MC-PILCO (EB-MC-PILCO), leverages iLQR to generate informative, exploratory trajectories and initialize the policy, significantly reducing the number of required optimization steps. Experiments on the cart-pole task demonstrate that EB-MC-PILCO accelerates convergence compared to standard MC-PILCO, achieving up to $\bm{45.9\%}$ reduction in execution time when both methods solve the task in four trials. EB-MC-PILCO also maintains a $\bm{100\%}$ success rate across trials while solving the task faster, even in cases where MC-PILCO converges in fewer iterations.
arxiv情報
著者 | Marco Calì,Giulio Giacomuzzo,Ruggero Carli,Alberto Dalla Libera |
発行日 | 2025-06-03 11:30:59+00:00 |
arxivサイト | arxiv_id(pdf) |