要約
E-AMoD(Electric-AutonomousMobility-on-Demand)フリートのオペレータは、利用可能な車両と乗車要求のマッチング、需要の高いエリアへのアイドル車両のリバランス、十分な航続距離を確保するための車両の充電など、いくつかのリアルタイム決定を行う必要がある。この問題は、空間-充電-時間グラフ上のフローを最適化する線形プログラムとして提起することができるが、結果として生じる最適化問題のサイズは、現実的な設定でのリアルタイム実装を可能にしない。本研究では、強化学習のレンズを通してE-AMoD制御問題を提示し、飛躍的に改善されたスケーラビリティとヒューリスティックよりも優れた性能を達成するために、グラフネットワークベースのフレームワークを提案する。具体的には、(1)グラフネットワークベースのRLエージェントを活用し、空間電荷グラフにおいて望ましい次の状態を指定し、(2)実現可能性を確保しながら望ましい状態を達成するために、より扱いやすい線形プログラムを解くという2レベル定式化を採用する。サンフランシスコとニューヨークの実データを用いた実験により、我々のアプローチは、計算時間を100倍以上高速化しながら、理論的に最適な解の最大89%の利益を達成することが示された。さらに、都市間汎化やサービスエリア拡大などのタスクにおいて、我々の学習したポリシーの有望なゼロショット移転能力を強調し、我々のフレームワークの有用性、拡張性、柔軟性を示す。最後に、我々のアプローチは、同程度の実行時間を持つ最良のドメイン固有ヒューリスティックを凌駕し、最大3.2倍の利益の増加を示した。
要約(オリジナル)
Operators of Electric Autonomous Mobility-on-Demand (E-AMoD) fleets need to make several real-time decisions such as matching available vehicles to ride requests, rebalancing idle vehicles to areas of high demand, and charging vehicles to ensure sufficient range. While this problem can be posed as a linear program that optimizes flows over a space-charge-time graph, the size of the resulting optimization problem does not allow for real-time implementation in realistic settings. In this work, we present the E-AMoD control problem through the lens of reinforcement learning and propose a graph network-based framework to achieve drastically improved scalability and superior performance over heuristics. Specifically, we adopt a bi-level formulation where we (1) leverage a graph network-based RL agent to specify a desired next state in the space-charge graph, and (2) solve more tractable linear programs to best achieve the desired state while ensuring feasibility. Experiments using real-world data from San Francisco and New York City show that our approach achieves up to 89% of the profits of the theoretically-optimal solution while achieving more than a 100x speedup in computational time. We further highlight promising zero-shot transfer capabilities of our learned policy on tasks such as inter-city generalization and service area expansion, thus showing the utility, scalability, and flexibility of our framework. Finally, our approach outperforms the best domain-specific heuristics with comparable runtimes, with an increase in profits by up to 3.2x.
arxiv情報
著者 | Aaryan Singhal,Daniele Gammelli,Justin Luke,Karthik Gopalakrishnan,Dominik Helmreich,Marco Pavone |
発行日 | 2024-04-04 01:43:42+00:00 |
arxivサイト | arxiv_id(pdf) |