要約
効率的な交通制御 (TSC) は都市のモビリティにとって不可欠ですが、従来のシステムは現実世界の交通の複雑さを処理するのに苦労しています。
マルチエージェント強化学習 (MARL) は適応型ソリューションを提供しますが、オンライン MARL は環境との広範な対話を必要とするため、コストがかかり非現実的です。
オフライン MARL は、トレーニングに過去のトラフィック データを使用することでこれらの課題を軽減しますが、実世界のデータセットにおける異種動作ポリシーでは、品質が混在するデータが学習を複雑にするという重大な問題に直面します。
TSC データセット内の異種動作ポリシーを処理するために設計された新しいオフライン MARL フレームワークである OffLight を紹介します。
学習効率を向上させるために、OffLight には分布のシフトを補正する重要度サンプリング (IS) と、高品質のエクスペリエンスに重点を置くリターンベース優先サンプリング (RBPS) が組み込まれています。
OffLight は、ガウス混合変分グラフ オートエンコーダー (GMM-VGAE) を利用して、ローカル観察から行動ポリシーの多様な分布を捕捉します。
現実世界の都市交通シナリオにわたる広範な実験により、OffLight が既存のオフライン RL 手法よりも優れたパフォーマンスを発揮し、平均移動時間の最大 7.8% の短縮とキューの長さの 11.2% の短縮を達成したことが示されています。
アブレーション研究により、異種データの処理とポリシーのパフォーマンスの向上における OffLight のコンポーネントの有効性が確認されています。
これらの結果は、OffLight の拡張性と、オンライン学習のリスクを伴うことなく都市交通管理を改善できる可能性を浮き彫りにしています。
要約(オリジナル)
Efficient traffic control (TSC) is essential for urban mobility, but traditional systems struggle to handle the complexity of real-world traffic. Multi-agent Reinforcement Learning (MARL) offers adaptive solutions, but online MARL requires extensive interactions with the environment, making it costly and impractical. Offline MARL mitigates these challenges by using historical traffic data for training but faces significant difficulties with heterogeneous behavior policies in real-world datasets, where mixed-quality data complicates learning. We introduce OffLight, a novel offline MARL framework designed to handle heterogeneous behavior policies in TSC datasets. To improve learning efficiency, OffLight incorporates Importance Sampling (IS) to correct for distributional shifts and Return-Based Prioritized Sampling (RBPS) to focus on high-quality experiences. OffLight utilizes a Gaussian Mixture Variational Graph Autoencoder (GMM-VGAE) to capture the diverse distribution of behavior policies from local observations. Extensive experiments across real-world urban traffic scenarios show that OffLight outperforms existing offline RL methods, achieving up to a 7.8% reduction in average travel time and 11.2% decrease in queue length. Ablation studies confirm the effectiveness of OffLight’s components in handling heterogeneous data and improving policy performance. These results highlight OffLight’s scalability and potential to improve urban traffic management without the risks of online learning.
arxiv情報
著者 | Rohit Bokade,Xiaoning Jin |
発行日 | 2024-11-25 15:17:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google