Reinforcement Learning with Model Predictive Control for Highway Ramp Metering

要約

効果的な都市交通システムと高速道路交通システムの必要性がますます高まっていることを背景に、この研究では、ランプメーター制御の問題に対する革新的なアプローチを使用して交通流管理を強化するための、モデルベースの戦略と学習ベースの戦略の相乗効果を探ります。
モデル予測制御 (MPC) フレームワーク内の強化学習 (RL) 手法。
制御問題は、交通状況、制御動作の変動性、および待機車両の最大数の制約違反を表す適切な段階コスト関数を作成することにより、RL タスクとして定式化されます。
RL アルゴリズムの関数近似として MPC 最適問題を活用する MPC ベースの RL アプローチは、システム モデルの不確実性や変動する要求にもかかわらず、オンランプを効率的に制御し、その制約を満たす方法を学習するために提案されています。
シミュレーションはベンチマークとなる小規模高速道路ネットワークで実行され、提案された方法論を他の最先端の制御アプローチと比較します。
結果は、モデルが不正確で調整が不十分な MPC コントローラーから始めて、提案された方法論がネットワーク内の輻輳が軽減され制約が満たされるように制御ポリシーを改善する方法を効果的に学習でき、パフォーマンスが向上することを示しています。
他のコントローラーよりも優れています。

要約(オリジナル)

In the backdrop of an increasingly pressing need for effective urban and highway transportation systems, this work explores the synergy between model-based and learning-based strategies to enhance traffic flow management by use of an innovative approach to the problem of ramp metering control that embeds Reinforcement Learning (RL) techniques within the Model Predictive Control (MPC) framework. The control problem is formulated as an RL task by crafting a suitable stage cost function that is representative of the traffic conditions, variability in the control action, and violations of the constraint on the maximum number of vehicles in queue. An MPC-based RL approach, which leverages the MPC optimal problem as a function approximation for the RL algorithm, is proposed to learn to efficiently control an on-ramp and satisfy its constraints despite uncertainties in the system model and variable demands. Simulations are performed on a benchmark small-scale highway network to compare the proposed methodology against other state-of-the-art control approaches. Results show that, starting from an MPC controller that has an imprecise model and is poorly tuned, the proposed methodology is able to effectively learn to improve the control policy such that congestion in the network is reduced and constraints are satisfied, yielding an improved performance that is superior to the other controllers.

arxiv情報

著者 Filippo Airaldi,Bart De Schutter,Azita Dabiri
発行日 2024-05-21 11:52:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SY, eess.SY パーマリンク