要約
タイトル:ダイナミック深層強化学習を用いた大規模地域交通信号制御
要約:
-マルチエージェント強化学習(MARL)を用いた交通信号制御は、近年注目されるテーマの一つである。
-MARLアプローチのほとんどは、近隣信号機間の通信を考慮し、非中央集権的な制御戦略を学習する傾向にある。
-MARLの非定常性は、交差点の数が多くなると非常に遅くなるか、失敗する可能性がある。
-既存のメソッドは、ネットワーク全体をいくつかの領域に分割し、各領域が中央集権的なRLフレームワークを使用して収束率を高速化することである。
-この戦略には2つの課題がある:1つ目は柔軟な分割を得る方法であり、2つ目は領域内の交差点に対する最適な共同アクションを探索する方法である。
-この論文では、交差点間の接続に基づく領域分割規則に基づく新しい訓練フレームワークを提案し、最適な共同アクションを効率的に探索し、地域報酬を最大化するためのDynamic Branching Dueling Q-Network(DBDQ)を提案している。
-実験結果は、リアルデータセットと合成データセットの両方で、他の既存フレームワークよりも我々のフレームワークの優位性を示している。
要約(オリジナル)
Multi-agent Reinforcement Learning (MARL) based traffic signal control becomes a popular research topic in recent years. Most existing MARL approaches tend to learn the optimum control strategies in a decentralised manner by considering communication among neighbouring intersections. However, the non-stationary property in MARL may lead to extremely slow or even failure of convergence, especially when the number of intersections becomes large. One of the existing methods is to partition the whole network into several regions, each of which utilizes a centralized RL framework to speed up the convergence rate. However, there are two challenges for this strategy: the first one is how to get a flexible partition and the second one is how to search for the optimal joint actions for a region of intersections. In this paper, we propose a novel training framework where our region partitioning rule is based on the adjacency between the intersections and propose Dynamic Branching Dueling Q-Network (DBDQ) to search for optimal joint action efficiently and to maximize the regional reward. The experimental results with both real datasets and synthetic datasets demonstrate the superiority of our framework over other existing frameworks.
arxiv情報
著者 | Hankang Gu,Shangbo Wang |
発行日 | 2023-04-07 06:38:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI