Real-time Control of Electric Autonomous Mobility-on-Demand Systems via Graph Reinforcement Learning

要約

Electric Autonomous Mobility-on-Demand (E-AMoD) フリートのオペレーターは、利用可能な車両を乗車リクエストに適合させる、需要の高いエリアに空き車両を再バランスさせる、十分な航続距離を確保するために車両を充電するなど、いくつかのリアルタイムの決定を行う必要があります。
この問題は、空間-電荷-時間グラフ上のフローを最適化する線形プログラムとして提示できますが、結果として生じる最適化問題のサイズにより、現実的な設定でリアルタイムに実装することはできません。
この研究では、強化学習のレンズを通して E-AMoD 制御問題を提示し、大幅に改善されたスケーラビリティとヒューリスティックよりも優れたパフォーマンスを実現するグラフ ネットワーク ベースのフレームワークを提案します。
具体的には、(1) グラフ ネットワーク ベースの RL エージェントを利用して空間電荷グラフ内の望ましい次の状態を指定し、(2) 望ましい状態を最適に達成するためにより扱いやすい線形プログラムを解く、2 レベルの定式化を採用します。
実現可能性を確保しながら。
サンフランシスコとニューヨーク市の実世界データを使用した実験では、私たちのアプローチが理論的に最適なソリューションの利益の最大 89% を達成しながら、計算時間の 100 倍以上の高速化を達成できることが示されています。
さらに、当社のアプローチは、同等の実行時間でドメイン固有の最良のヒューリスティックを上回り、利益が最大 3 倍増加します。
最後に、都市間の一般化やサービスエリアの拡大などのタスクに関して学習したポリシーの有望なゼロショット転送機能を強調し、フレームワークの有用性、拡張性、柔軟性を示します。

要約(オリジナル)

Operators of Electric Autonomous Mobility-on-Demand (E-AMoD) fleets need to make several real-time decisions such as matching available cars to ride requests, rebalancing idle cars to areas of high demand, and charging vehicles to ensure sufficient range. While this problem can be posed as a linear program that optimizes flows over a space-charge-time graph, the size of the resulting optimization problem does not allow for real-time implementation in realistic settings. In this work, we present the E-AMoD control problem through the lens of reinforcement learning and propose a graph network-based framework to achieve drastically improved scalability and superior performance over heuristics. Specifically, we adopt a bi-level formulation where we (1) leverage a graph network-based RL agent to specify a desired next state in the space-charge graph, and (2) solve more tractable linear programs to best achieve the desired state while ensuring feasibility. Experiments using real-world data from San Francisco and New York City show that our approach achieves up to 89% of the profits of the theoretically-optimal solution while achieving more than a 100x speedup in computational time. Furthermore, our approach outperforms the best domain-specific heuristics with comparable runtimes, with an increase in profits by up to 3x. Finally, we highlight promising zero-shot transfer capabilities of our learned policy on tasks such as inter-city generalization and service area expansion, thus showing the utility, scalability, and flexibility of our framework.

arxiv情報

著者 Aaryan Singhal,Daniele Gammelli,Justin Luke,Karthik Gopalakrishnan,Dominik Helmreich,Marco Pavone
発行日 2023-11-09 22:57:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク