A Robust and Constrained Multi-Agent Reinforcement Learning Electric Vehicle Rebalancing Method in AMoD Systems

要約

電気自動車(EV)は自律型モビリティ・オン・デマンド(AMoD)システムにおいて重要な役割を果たしますが、その独自の充電パターンにより、AMoD システムにおけるモデルの不確実性(例、状態遷移確率)が増加します。
通常、トレーニング環境とテスト/実際の環境の間には不一致が存在するため、実際のアプリケーションではモデルの不確実性をシステム設計に組み込むことが非常に重要です。
ただし、既存の文献では、EV AMoD システムのリバランスにおいてモデルの不確実性が明確に考慮されておらず、モデルの不確実性と決定が満たすべき制約が共存するため、問題はさらに困難になります。
この研究では、EV AMoD システム向けに、状態遷移カーネルの不確実性を備えた堅牢で制約付きのマルチエージェント強化学習 (MARL) フレームワークを設計します。
次に、モデルの不確実性の下で都市全体の需給率と充電利用率のバランスを取るための堅牢な EV リバランス ポリシーをトレーニングする、堅牢な自然政策勾配 (RNPG) を備えた堅牢かつ制約付き MARL アルゴリズム (ROCOMA) を提案します。
実験では、ROCOMA が効果的かつ堅牢なリバランス ポリシーを学習できることが示されています。
モデルの不確実性が存在する場合、ロバストでない MARL 手法よりも優れたパフォーマンスを発揮します。
これにより、システムの公平性が 19.6% 向上し、リバランスのコストが 75.8% 削減されます。

要約(オリジナル)

Electric vehicles (EVs) play critical roles in autonomous mobility-on-demand (AMoD) systems, but their unique charging patterns increase the model uncertainties in AMoD systems (e.g. state transition probability). Since there usually exists a mismatch between the training and test/true environments, incorporating model uncertainty into system design is of critical importance in real-world applications. However, model uncertainties have not been considered explicitly in EV AMoD system rebalancing by existing literature yet, and the coexistence of model uncertainties and constraints that the decision should satisfy makes the problem even more challenging. In this work, we design a robust and constrained multi-agent reinforcement learning (MARL) framework with state transition kernel uncertainty for EV AMoD systems. We then propose a robust and constrained MARL algorithm (ROCOMA) with robust natural policy gradients (RNPG) that trains a robust EV rebalancing policy to balance the supply-demand ratio and the charging utilization rate across the city under model uncertainty. Experiments show that the ROCOMA can learn an effective and robust rebalancing policy. It outperforms non-robust MARL methods in the presence of model uncertainties. It increases the system fairness by 19.6% and decreases the rebalancing costs by 75.8%.

arxiv情報

著者 Sihong He,Yue Wang,Shuo Han,Shaofeng Zou,Fei Miao
発行日 2023-09-27 16:25:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.RO, cs.SY, eess.SY パーマリンク