要約
交通信号制御 (TSC) の最適化は、効率的な交通システムにとって重要です。
近年、強化学習 (RL) 技術が TSC の一般的なアプローチとして台頭しており、高度な適応制御に有望な結果を示しています。
しかし、既存の RL ベースの手法は現実世界への適用性が著しく低く、導入に成功した例はほとんどありません。
このような失敗の理由は主に、ポリシーの最適化のために過度に理想化された交通シミュレーターに依存していること、および現実世界のセンサーから直接取得できない非現実的なきめの細かい状態観測や報酬信号を使用していることによるものです。
この論文では、現実的な交通信号制御 (D2TSC) のための完全にデータ駆動型でシミュレータ不要のフレームワークを提案します。
具体的には、確立された交通流理論と機械学習を組み合わせて、粗粒交通データから報酬信号を推測する報酬推論モデルを構築します。
推定された報酬を使用して、実世界の交差点の履歴オフライン データセットからの直接信号制御ポリシー学習を可能にする、サンプル効率の高いオフライン RL 手法をさらに提案します。
私たちのアプローチを評価するために、実際の交差点から過去の交通データを収集し、実際のデータの特性に厳密に従って高度にカスタマイズされたシミュレーション環境を開発します。
私たちは広範な実験を通じて、私たちのアプローチが従来のオフライン RL ベースラインよりも優れたパフォーマンスを達成し、現実世界への適用性もはるかに優れていることを実証しました。
要約(オリジナル)
The optimization of traffic signal control (TSC) is critical for an efficient transportation system. In recent years, reinforcement learning (RL) techniques have emerged as a popular approach for TSC and show promising results for highly adaptive control. However, existing RL-based methods suffer from notably poor real-world applicability and hardly have any successful deployments. The reasons for such failures are mostly due to the reliance on over-idealized traffic simulators for policy optimization, as well as using unrealistic fine-grained state observations and reward signals that are not directly obtainable from real-world sensors. In this paper, we propose a fully Data-Driven and simulator-free framework for realistic Traffic Signal Control (D2TSC). Specifically, we combine well-established traffic flow theory with machine learning to construct a reward inference model to infer the reward signals from coarse-grained traffic data. With the inferred rewards, we further propose a sample-efficient offline RL method to enable direct signal control policy learning from historical offline datasets of real-world intersections. To evaluate our approach, we collect historical traffic data from a real-world intersection, and develop a highly customized simulation environment that strictly follows real data characteristics. We demonstrate through extensive experiments that our approach achieves superior performance over conventional and offline RL baselines, and also enjoys much better real-world applicability.
arxiv情報
著者 | Jianxiong Li,Shichao Lin,Tianyu Shi,Chujie Tian,Yu Mei,Jian Song,Xianyuan Zhan,Ruimin Li |
発行日 | 2023-11-27 15:29:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google