GuideLight: ‘Industrial Solution’ Guidance for More Practical Traffic Signal Control Agents

要約

現在、強化学習 (RL) に基づく交通信号制御 (TSC) 手法は、従来の手法よりも優れていることが証明されています。
ただし、ほとんどの RL 手法は、入力、出力、サイクルとフローの関係という 3 つの要因により、現実の世界に適用すると困難に直面します。
業界の観察可能な入力は、シミュレーションベースの RL 手法よりもはるかに制限されています。
実際のソリューションではフローのみを確実に収集できますが、一般的な RL 手法ではさらに多くの情報が必要です。
出力アクションの場合、ほとんどの RL メソッドは非周期制御に焦点を当てていますが、現実世界の信号コントローラーはこれをサポートしていません。
最も重要なことは、業界標準では一貫したサイクルと流量の関係、つまり低、中、高レベルの流量に対する非減少かつ異なる応答戦略が必要であるということですが、これは RL 手法では無視されます。
RL 手法と業界標準との間のギャップを縮めるために、当社は業界ソリューションを使用して RL エージェントをガイドすることを革新的に提案します。
具体的には、エージェントが業界の要件を模倣して満たすようにガイドするための動作クローニングとカリキュラム学習を設計し、同時に RL の探索と活用の力を活用してパフォーマンスを向上させます。
私たちは、このようなガイダンスにより、最適なポリシーを探索する際の多項式に対するサンプルの複雑さを大幅に軽減できることを理論的に証明しています。
私たちの厳密な実験は、私たちの方法が良好なサイクルと流れの関係と優れたパフォーマンスを持っていることを示しています。

要約(オリジナル)

Currently, traffic signal control (TSC) methods based on reinforcement learning (RL) have proven superior to traditional methods. However, most RL methods face difficulties when applied in the real world due to three factors: input, output, and the cycle-flow relation. The industry’s observable input is much more limited than simulation-based RL methods. For real-world solutions, only flow can be reliably collected, whereas common RL methods need more. For the output action, most RL methods focus on acyclic control, which real-world signal controllers do not support. Most importantly, industry standards require a consistent cycle-flow relationship: non-decreasing and different response strategies for low, medium, and high-level flows, which is ignored by the RL methods. To narrow the gap between RL methods and industry standards, we innovatively propose to use industry solutions to guide the RL agent. Specifically, we design behavior cloning and curriculum learning to guide the agent to mimic and meet industry requirements and, at the same time, leverage the power of exploration and exploitation in RL for better performance. We theoretically prove that such guidance can largely decrease the sample complexity to polynomials in the horizon when searching for an optimal policy. Our rigid experiments show that our method has good cycle-flow relation and superior performance.

arxiv情報

著者 Haoyuan Jiang,Xuantang Xiong,Ziyue Li,Hangyu Mao,Guanghu Sui,Jingqing Ruan,Yuheng Cheng,Hua Wei,Wolfgang Ketter,Rui Zhao
発行日 2024-07-15 15:26:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク