A Safe Reinforcement Learning driven Weights-varying Model Predictive Control for Autonomous Vehicle Motion Control

要約

複数の制御目的を最適化するために、モデル予測制御(MPC)の最適なコスト関数パラメータを決定することは、困難で時間のかかる作業である。多目的ベイズ最適化(BO)技術は、静的重みを持つMPCのパレート最適パラメータセットを決定することにより、この問題を解決します。しかし、MPCの動作中に動作条件のコンテキストが変化した場合、単一のパラメータセットでは最適な閉ループ制御性能が得られない可能性があり、実行時にコスト関数の重みを適応させる必要があります。深層強化学習(RL)アルゴリズムは、コンテキスト依存の最適パラメータセットを自動的に学習し、Weightsvarying MPC(WMPC)に動的に適応することができます。しかし、連続的な行動空間でゼロからコスト関数の重みを学習することは、安全でない動作状態につながる可能性がある。これを解決するために、我々は、最適化されたBOパレート最適重みセットのカタログを表す安全な学習空間内でRL行動を制限する新しいアプローチを提案する。我々は、RLエージェントは連続空間で学習するのではなく、来るべき制御タスクを先回りして予測し、それぞれがパレート最適重みの単一セットに対応する、文脈依存の最適な離散行動を選択するものと考えている。したがって、訓練されていないRLエージェントであっても、安全で最適な性能が保証される。実験結果は、訓練されていないRL-WMPCがパレート最適な閉ループ挙動を示し、RL-WMPCを訓練することでパレートフロントを超える性能を示すことを実証している。

要約(オリジナル)

Determining the optimal cost function parameters of Model Predictive Control (MPC) to optimize multiple control objectives is a challenging and time-consuming task. Multiobjective Bayesian Optimization (BO) techniques solve this problem by determining a Pareto optimal parameter set for an MPC with static weights. However, a single parameter set may not deliver the most optimal closed-loop control performance when the context of the MPC operating conditions changes during its operation, urging the need to adapt the cost function weights at runtime. Deep Reinforcement Learning (RL) algorithms can automatically learn context-dependent optimal parameter sets and dynamically adapt for a Weightsvarying MPC (WMPC). However, learning cost function weights from scratch in a continuous action space may lead to unsafe operating states. To solve this, we propose a novel approach limiting the RL actions within a safe learning space representing a catalog of pre-optimized BO Pareto-optimal weight sets. We conceive a RL agent not to learn in a continuous space but to proactively anticipate upcoming control tasks and to choose the most optimal discrete actions, each corresponding to a single set of Pareto optimal weights, context-dependent. Hence, even an untrained RL agent guarantees a safe and optimal performance. Experimental results demonstrate that an untrained RL-WMPC shows Pareto-optimal closed-loop behavior and training the RL-WMPC helps exhibit a performance beyond the Pareto-front.

arxiv情報

著者 Baha Zarrouki,Marios Spanakakis,Johannes Betz
発行日 2024-02-04 22:09:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク