Bootstrapped Model Predictive Control

要約

モデル予測制御(MPC)は、継続的な制御タスクに効果的であることが実証されています。
世界モデルと値関数が利用可能な場合、事前に一連のアクションを計画すると、より良いポリシーにつながります。
既存のメソッドは通常、モデルのない方法で値関数と対応するポリシーを取得します。
ただし、このようなアプローチは複雑なタスクと格闘しているため、政策学習が不十分で価値の推定が不正確になります。
この問題に対処するために、MPC自体の強みを活用します。
この作業では、ブートストラップされたモデル予測制御(BMPC)を紹介します。これは、ブートストラップされた方法でポリシー学習を実行する新しいアルゴリズムです。
BMPCは、MPCの専門家を模倣することによりネットワークポリシーを学習し、このポリシーを使用してMPCプロセスをガイドします。
モデルベースのTD学習と組み合わせると、当社のポリシー学習はより良い価値の推定をもたらし、MPCの効率をさらに高めます。
また、計算上効率の良い模倣学習を可能にする怠zyな再分析メカニズムも導入します。
私たちの方法は、多様な連続制御タスクに関する以前の作業よりも優れたパフォーマンスを実現します。
特に、挑戦的な高次元の移動タスクでは、BMPCはデータ効率を大幅に向上させ、同等のトレーニング時間とネットワークサイズが小さく、漸近パフォーマンスとトレーニングの安定性を高めます。
コードはhttps://github.com/wertyuilife2/bmpcで入手できます。

要約(オリジナル)

Model Predictive Control (MPC) has been demonstrated to be effective in continuous control tasks. When a world model and a value function are available, planning a sequence of actions ahead of time leads to a better policy. Existing methods typically obtain the value function and the corresponding policy in a model-free manner. However, we find that such an approach struggles with complex tasks, resulting in poor policy learning and inaccurate value estimation. To address this problem, we leverage the strengths of MPC itself. In this work, we introduce Bootstrapped Model Predictive Control (BMPC), a novel algorithm that performs policy learning in a bootstrapped manner. BMPC learns a network policy by imitating an MPC expert, and in turn, uses this policy to guide the MPC process. Combined with model-based TD-learning, our policy learning yields better value estimation and further boosts the efficiency of MPC. We also introduce a lazy reanalyze mechanism, which enables computationally efficient imitation learning. Our method achieves superior performance over prior works on diverse continuous control tasks. In particular, on challenging high-dimensional locomotion tasks, BMPC significantly improves data efficiency while also enhancing asymptotic performance and training stability, with comparable training time and smaller network sizes. Code is available at https://github.com/wertyuilife2/bmpc.

arxiv情報

著者 Yuhang Wang,Hanwei Guo,Sizhe Wang,Long Qian,Xuguang Lan
発行日 2025-03-24 16:46:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク