Approximate Multiagent Reinforcement Learning for On-Demand Urban Mobility Problem on a Large Map (extended version)

要約

本論文では、将来の乗車要求の場所と数が事前には未知であるが、推定された経験的分布に従う、大規模都市環境における自律マルチエージェントタクシールーティング問題に焦点を当てる。最近の理論により、基本方針が安定であれば、そのような基本方針を用いたロールアウトに基づくアルゴリズムは、ほぼ最適な安定方針を生成することが示されている。ロールアウトベースのアプローチは、将来の需要を考慮した協調的なマルチエージェント政策を学習するのに適しているが、このような手法を大規模な都市環境に適用すると、計算コストが高くなる可能性がある。大規模な環境では大量の要求が発生するため、安定性を保証するためには大規模なタクシー隊が必要となる。本論文では、マルチエージェント(1-at-a-time)ロールアウトの計算上のボトルネックに対処することを目的とする。我々は、計算コストを削減しつつ、安定した最適に近いポリシーを達成する、近似的な1回ごとのロールアウトに基づく2フェーズアルゴリズムを提案する。我々のアプローチは、予測される需要と、1-at-a-timeロールアウト・アプローチを用いて計画可能なユーザ定義の最大エージェント数に基づいて、グラフをセクタに分割する。そして、このアルゴリズムは、セクタ間のタクシーの再バランスをとるための瞬間割り当て(IA)と、各セクタに対して並列に実行されるセクタ全体のワン・アット・ア・タイム・ロールアウト・アルゴリズムを適用する。IA基本方針が安定であるのに十分なタクシー台数$m$を特徴付け、時間が無限大になるにつれて$m$の必要条件を導出する。数値計算の結果、理論的条件を満たす$m$で我々のアプローチが安定を達成することを示す。また、我々の提案する2フェーズアルゴリズムが、マップ全体にわたる1回ずつのロールアウトと同等の性能を持つが、実行時間は大幅に短いことを実証的に示す。

要約(オリジナル)

In this paper, we focus on the autonomous multiagent taxi routing problem for a large urban environment where the location and number of future ride requests are unknown a-priori, but follow an estimated empirical distribution. Recent theory has shown that if a base policy is stable then a rollout-based algorithm with such a base policy produces a near-optimal stable policy. Although, rollout-based approaches are well-suited for learning cooperative multiagent policies with considerations for future demand, applying such methods to a large urban environment can be computationally expensive. Large environments tend to have a large volume of requests, and hence require a large fleet of taxis to guarantee stability. In this paper, we aim to address the computational bottleneck of multiagent (one-at-a-time) rollout, where the computational complexity grows linearly in the number of agents. We propose an approximate one-at-a-time rollout-based two-phase algorithm that reduces the computational cost, while still achieving a stable near-optimal policy. Our approach partitions the graph into sectors based on the predicted demand and an user-defined maximum number of agents that can be planned for using the one-at-a-time rollout approach. The algorithm then applies instantaneous assignment (IA) for re-balancing taxis across sectors and a sector-wide one-at-a-time rollout algorithm that is executed in parallel for each sector. We characterize the number of taxis $m$ that is sufficient for IA base policy to be stable, and derive a necessary condition on $m$ as time goes to infinity. Our numerical results show that our approach achieves stability for an $m$ that satisfies the theoretical conditions. We also empirically demonstrate that our proposed two-phase algorithm has comparable performance to the one-at-a-time rollout over the entire map, but with significantly lower runtimes.

arxiv情報

著者 Daniel Garces,Sushmita Bhattacharya,Dimitri Bertsekas,Stephanie Gil
発行日 2023-11-02 18:33:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.MA, cs.RO パーマリンク