Cooperative Multi-Objective Reinforcement Learning for Traffic Signal Control and Carbon Emission Reduction

要約

既存の交通信号制御システムは、過度に単純化されたルールベースの方法に依存しており、RL ベースの方法でさえ最適とは言えず、不安定であることがよくあります。
これに対処するために、我々は、多目的マルチエージェントディープ決定論的ポリシー勾配 (MOMA-DDPG) と呼ばれる協調的な多目的アーキテクチャを提案します。これは、経年減衰重みを使用して交通信号制御最適化のための複数の報酬条件を推定します。
私たちのアプローチには 2 種類のエージェントが含まれます。1 つは各交差点でのローカル交通の最適化に焦点を当て、もう 1 つはグローバルな交通スループットの最適化を目的としています。
私たちは、アジアの国の交通カメラから収集された実際の交通データを使用して手法を評価します。
グローバル エージェントが含まれているにもかかわらず、このエージェントは推論段階では必要ないため、ソリューションは分散化されたままになります。
私たちの結果は、MOMA-DDPG の有効性が実証されており、すべてのパフォーマンス指標において最先端の手法を上回っています。
さらに、私たちが提案するシステムは、待ち時間と二酸化炭素排出量の両方を最小限に抑えます。
注目すべき点は、この論文が炭素排出量と交通信号制御における世界的なエージェントを初めて結び付けたことです。

要約(オリジナル)

Existing traffic signal control systems rely on oversimplified rule-based methods, and even RL-based methods are often suboptimal and unstable. To address this, we propose a cooperative multi-objective architecture called Multi-Objective Multi-Agent Deep Deterministic Policy Gradient (MOMA-DDPG), which estimates multiple reward terms for traffic signal control optimization using age-decaying weights. Our approach involves two types of agents: one focuses on optimizing local traffic at each intersection, while the other aims to optimize global traffic throughput. We evaluate our method using real-world traffic data collected from an Asian country’s traffic cameras. Despite the inclusion of a global agent, our solution remains decentralized as this agent is no longer necessary during the inference stage. Our results demonstrate the effectiveness of MOMA-DDPG, outperforming state-of-the-art methods across all performance metrics. Additionally, our proposed system minimizes both waiting time and carbon emissions. Notably, this paper is the first to link carbon emissions and global agents in traffic signal control.

arxiv情報

著者 Cheng Ruei Tang,Jun Wei Hsieh,Shin You Teng
発行日 2023-06-16 07:37:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク