Perimeter Control with Heterogeneous Metering Rates for Cordon Signals: A Physics-Regularized Multi-Agent Reinforcement Learning Approach

要約

境界制御(PC)戦略は、巨視的基本図(MFD)に基づいて保護ネットワーク(PN)の転送フローを規制することにより、過飽和状況における都市道路ネットワーク制御に対処するために提案されています。
ほとんどの既存の研究における非常線信号の均一なメーター率は、交差点レベルでのローカル交通状態の変化を見落としており、それが深刻なローカル交通渋滞とネットワーク安定性の低下を引き起こす可能性があります。
非常線信号に対して異種の計量レートを使用する PC 戦略では、周囲を正確に制御できますが、問題の複雑さは PN の規模に応じて指数関数的に増加します。
この論文では、マルチエージェント強化学習 (MARL) ベースの交通信号制御フレームワークを利用して、非常線信号の異種メーターレートを考慮したこの PC 問題をマルチエージェント協力タスクに分解します。
各エージェントは非常線内にある個別の信号を制御し、集中型の方法と比較してコントローラーのアクション スペースの寸法を削減します。
MARL フレームワークの物理的正則化アプローチは、MFD ベースの知識をローカル エージェントのアクション値関数にエンコードすることで、分散非常線信号コントローラーがグローバル ネットワークの状態を確実に認識できるようにするために提案されています。
提案された PC 戦略は 2 段階システムとして動作します。フィードバック PC 戦略は PN 内の全体的なトラフィック状態を検出し、物理的正則化を介して MARL フレームワーク内の非常線信号コントローラーにローカル命令を配布します。
微細な交通環境におけるさまざまな需要パターンによる数値テストを通じて、提案された PC 戦略は有望な堅牢性と転送可能性を示しました。
ネットワーク スループットの向上、ゲート リンクの分散遅延の減少、炭素排出量の削減において、最先端のフィードバック PC 戦略を上回ります。

要約(オリジナル)

Perimeter Control (PC) strategies have been proposed to address urban road network control in oversaturated situations by regulating the transfer flow of the Protected Network (PN) based on the Macroscopic Fundamental Diagram (MFD). The uniform metering rate for cordon signals in most existing studies overlooks the variance of local traffic states at the intersection level, which may cause severe local traffic congestion and degradation of the network stability. PC strategies with heterogeneous metering rates for cordon signals allow precise control for the perimeter but the complexity of the problem increases exponentially with the scale of the PN. This paper leverages a Multi-Agent Reinforcement Learning (MARL)-based traffic signal control framework to decompose this PC problem, which considers heterogeneous metering rates for cordon signals, into multi-agent cooperation tasks. Each agent controls an individual signal located in the cordon, decreasing the dimension of action space for the controller compared to centralized methods. A physics regularization approach for the MARL framework is proposed to ensure the distributed cordon signal controllers are aware of the global network state by encoding MFD-based knowledge into the action-value functions of the local agents. The proposed PC strategy is operated as a two-stage system, with a feedback PC strategy detecting the overall traffic state within the PN and then distributing local instructions to cordon signals controllers in the MARL framework via the physics regularization. Through numerical tests with different demand patterns in a microscopic traffic environment, the proposed PC strategy shows promising robustness and transferability. It outperforms state-of-the-art feedback PC strategies in increasing network throughput, decreasing distributed delay for gate links, and reducing carbon emissions.

arxiv情報

著者 Jiajie Yu,Pierre-Antoine Laharotte,Yu Han,Wei Ma,Ludovic Leclercq
発行日 2024-05-31 15:44:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SY, eess.SY パーマリンク