要約
マルチエージェント強化学習 (MARL) を使用した適応型交通信号制御は、最近非常に人気のあるトピックです。
ほとんどの既存の新しい方法では、1 つのエージェントが単一の交差点を制御し、これらの方法は交差点間の協調に焦点を当てています。
ただし、トラフィック ネットワークのサイズが大きくなるにつれて、MARL の非定常特性により、上記の方法のパフォーマンスが依然として制限されます。
危うい戦略の 1 つは、1 つのエージェントに交差領域を割り当てて、エージェントの数を減らすことです。
この戦略には 2 つの課題があります。1 つは交通ネットワークを小さな領域に分割する方法であり、もう 1 つは交差点の領域に最適な共同アクションを検索する方法です。
この論文では、新しいトレーニングフレームワークRegionLightを提案します。ここで、領域分割ルールは、交差点と拡張分岐決闘Qネットワーク(BDQ)と動的分岐決闘Qネットワーク(DBDQ)との間の隣接性に基づいて、
共同行動空間のサイズを調整し、交通ネットワークの境界外の架空の交差点によって導入されるバイアスを軽減します。
実際のデータセットと合成データセットの両方での実験は、私たちのフレームワークが他の新しいフレームワークの中で最高のパフォーマンスを発揮し、地域分割ルールが堅牢であることを示しています。
要約(オリジナル)
Adaptive traffic signal control with Multi-agent Reinforcement Learning(MARL) is a very popular topic nowadays. In most existing novel methods, one agent controls single intersections and these methods focus on the cooperation between intersections. However, the non-stationary property of MARL still limits the performance of the above methods as the size of traffic networks grows. One compromised strategy is to assign one agent with a region of intersections to reduce the number of agents. There are two challenges in this strategy, one is how to partition a traffic network into small regions and the other is how to search for the optimal joint actions for a region of intersections. In this paper, we propose a novel training framework RegionLight where our region partition rule is based on the adjacency between the intersection and extended Branching Dueling Q-Network(BDQ) to Dynamic Branching Dueling Q-Network(DBDQ) to bound the growth of the size of joint action space and alleviate the bias introduced by imaginary intersections outside of the boundary of the traffic network. Our experiments on both real datasets and synthetic datasets demonstrate that our framework performs best among other novel frameworks and that our region partition rule is robust.
arxiv情報
著者 | Hankang Gu,Shangbo Wang |
発行日 | 2023-03-21 14:42:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google