要約
モデル予測制御(MPC)は、連続的な制御タスクにおいて有効であることが実証されている。世界モデルと価値関数が利用可能な場合、前もって一連の行動を計画することで、より良い政策が導かれる。既存の手法は、通常、モデルフリーな方法で価値関数とそれに対応するポリシーを求める。しかし、このようなアプローチは複雑なタスクに苦戦し、その結果、政策学習がうまくいかず、価値推定が不正確になる。この問題に対処するために、我々はMPC自体の長所を活用する。本研究では、ブートストラップ型モデル予測制御(Bootstrapped Model Predictive Control: BMPC)を導入する。BMPCはMPCエキスパートを模倣することでネットワークポリシーを学習し、そのポリシーをMPCプロセスのガイドに用いる。モデルベースのTD学習と組み合わせることで、我々のポリシー学習はより良い値推定をもたらし、MPCの効率をさらに高める。また、計算効率の良い模倣学習を可能にする遅延再分析メカニズムも導入する。我々の手法は、様々な連続制御タスクにおいて、先行研究よりも優れた性能を達成する。特に、難易度の高い高次元運動課題において、BMPCはデータ効率を大幅に向上させるとともに、漸近的な性能と学習の安定性を向上させ、同等の学習時間とより小さなネットワークサイズを実現する。コードはhttps://github.com/wertyuilife2/bmpc。
要約(オリジナル)
Model Predictive Control (MPC) has been demonstrated to be effective in continuous control tasks. When a world model and a value function are available, planning a sequence of actions ahead of time leads to a better policy. Existing methods typically obtain the value function and the corresponding policy in a model-free manner. However, we find that such an approach struggles with complex tasks, resulting in poor policy learning and inaccurate value estimation. To address this problem, we leverage the strengths of MPC itself. In this work, we introduce Bootstrapped Model Predictive Control (BMPC), a novel algorithm that performs policy learning in a bootstrapped manner. BMPC learns a network policy by imitating an MPC expert, and in turn, uses this policy to guide the MPC process. Combined with model-based TD-learning, our policy learning yields better value estimation and further boosts the efficiency of MPC. We also introduce a lazy reanalyze mechanism, which enables computationally efficient imitation learning. Our method achieves superior performance over prior works on diverse continuous control tasks. In particular, on challenging high-dimensional locomotion tasks, BMPC significantly improves data efficiency while also enhancing asymptotic performance and training stability, with comparable training time and smaller network sizes. Code is available at https://github.com/wertyuilife2/bmpc.
arxiv情報
著者 | Yuhang Wang,Hanwei Guo,Sizhe Wang,Long Qian,Xuguang Lan |
発行日 | 2025-04-03 19:21:53+00:00 |
arxivサイト | arxiv_id(pdf) |