Approximate Multiagent Reinforcement Learning for On-Demand Urban Mobility Problem on a Large Map (extended version)

要約

この論文では、将来の乗車リクエストの位置と数がアプリオリに不明であるが、経験的分布によって推定できる大都市環境における自律型マルチエージェント タクシー ルーティングの問題に焦点を当てます。
最近の理論では、安定した基本ポリシーを備えたロールアウト アルゴリズムにより、最適に近い安定したポリシーが生成されることが示されています。
ルーティング設定では、ポリシーの実行によって未処理のリクエストの数が時間の経過とともに均一に制限される場合、ポリシーは安定しています。
ロールアウト ベースのアプローチは、将来の需要を考慮して協調的なマルチエージェント ポリシーを学習するのに適していますが、このような方法を大都市環境に適用すると、安定性のために多数のタクシーが必要となるため、計算コストが高くなる可能性があります。
この論文では、安定した最適に近いポリシーを達成しながら、計算コストを削減する近似マルチエージェント ロールアウト ベースの 2 フェーズ アルゴリズムを提案することで、マルチエージェント ロールアウトの計算ボトルネックに対処することを目指しています。
私たちのアプローチでは、予測される需要と、ユーザーの計算リソースを考慮して連続して走行できるタクシーの最大数に基づいて、グラフをセクターに分割します。
次に、このアルゴリズムは、セクター全体でタクシーのバランスを再調整するための瞬時割り当て (IA) と、セクターごとに並行して実行されるセクター全体のマルチエージェント ロールアウト アルゴリズムを適用します。
我々は 2 つの主要な理論的結果を提供します: 1) IA が安定するために十分なタクシーの数 $m$ を特徴づけます。
2) 時間が無限に進んでも IA の安定性を維持するために $m$ で必要な条件を導出します。
数値結果は、私たちのアプローチが理論的条件を満たす $m$ に対して安定性を達成することを示しています。
また、私たちが提案した 2 フェーズ アルゴリズムは、マップ全体に対する 1 つずつのロールアウトと同等のパフォーマンスを持ちながら、実行時間が大幅に短いことも経験的に示しています。

要約(オリジナル)

In this paper, we focus on the autonomous multiagent taxi routing problem for a large urban environment where the location and number of future ride requests are unknown a-priori, but can be estimated by an empirical distribution. Recent theory has shown that a rollout algorithm with a stable base policy produces a near-optimal stable policy. In the routing setting, a policy is stable if its execution keeps the number of outstanding requests uniformly bounded over time. Although, rollout-based approaches are well-suited for learning cooperative multiagent policies with considerations for future demand, applying such methods to a large urban environment can be computationally expensive due to the large number of taxis required for stability. In this paper, we aim to address the computational bottleneck of multiagent rollout by proposing an approximate multiagent rollout-based two phase algorithm that reduces computational costs, while still achieving a stable near-optimal policy. Our approach partitions the graph into sectors based on the predicted demand and the maximum number of taxis that can run sequentially given the user’s computational resources. The algorithm then applies instantaneous assignment (IA) for re-balancing taxis across sectors and a sector-wide multiagent rollout algorithm that is executed in parallel for each sector. We provide two main theoretical results: 1) characterize the number of taxis $m$ that is sufficient for IA to be stable; 2) derive a necessary condition on $m$ to maintain stability for IA as time goes to infinity. Our numerical results show that our approach achieves stability for an $m$ that satisfies the theoretical conditions. We also empirically demonstrate that our proposed two phase algorithm has equivalent performance to the one-at-a-time rollout over the entire map, but with significantly lower runtimes.

arxiv情報

著者 Daniel Garces,Sushmita Bhattacharya,Dimitri Bertsekas,Stephanie Gil
発行日 2024-03-08 14:36:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO パーマリンク