Learning to Control Autonomous Fleets from Observation via Offline Reinforcement Learning

要約

自律型モビリティ オン デマンド (AMoD) システムは、急速に進化している交通手段であり、中央で調整された自動運転車のフリートが動的に移動要求に対応します。
これらのシステムの制御は、通常、大規模なネットワーク最適化問題として定式化されます。強化学習 (RL) は、この分野の未解決の課題を解決するための有望なアプローチとして最近登場しました。
ただし、現在の RL ベースのアプローチは、オンライン データからの学習のみに焦点を当てており、現実世界の輸送システム内の相互作用のサンプルあたりのコストを根本的に無視しています。
これらの制限に対処するために、オフライン強化学習のレンズを通して AMoD システムの制御を形式化し、オフライン データのみを介して効果的な制御戦略を学習し、現在のモビリティ オペレーターがすぐに利用できるようにすることを提案します。
さらに、設計上の決定を調査し、現実世界のモビリティ システムでの実験を提供して、オフライン学習が (i) オンライン方式と同等のパフォーマンスを示し、(ii) データ効率を大幅に改善し、(iii) 完全に排除する AMoD コントロール ポリシーを回復する方法を示します。
複雑なシミュレートされた環境の必要性。
重要なことに、このホワイト ペーパーでは、モビリティ システムなどの経済的に重要なシステム内での RL ベースのソリューションの適用において、オフライン強化学習が有望なパラダイムであることを示しています。

要約(オリジナル)

Autonomous Mobility-on-Demand (AMoD) systems are a rapidly evolving mode of transportation in which a centrally coordinated fleet of self-driving vehicles dynamically serves travel requests. The control of these systems is typically formulated as a large network optimization problem, and reinforcement learning (RL) has recently emerged as a promising approach to solve the open challenges in this space. However, current RL-based approaches exclusively focus on learning from online data, fundamentally ignoring the per-sample-cost of interactions within real-world transportation systems. To address these limitations, we propose to formalize the control of AMoD systems through the lens of offline reinforcement learning and learn effective control strategies via solely offline data, thus readily available to current mobility operators. We further investigate design decisions and provide experiments on real-world mobility systems showing how offline learning allows to recover AMoD control policies that (i) exhibit performance on par with online methods, (ii) drastically improve data efficiency, and (iii) completely eliminate the need for complex simulated environments. Crucially, this paper demonstrates that offline reinforcement learning is a promising paradigm for the application of RL-based solutions within economically-critical systems, such as mobility systems.

arxiv情報

著者 Carolin Schmidt,Daniele Gammelli,Francisco Camara Pereira,Filipe Rodrigues
発行日 2023-02-28 18:31:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク