Approximate Multiagent Reinforcement Learning for On-Demand Urban Mobility Problem on a Large Map (extended version)

要約

このホワイトペーパーでは、将来のライドリクエストの場所と数が不明ですが、経験的分布によって推定できる大規模な都市環境の自律的なマルチエージェントタクシールーティングの問題に焦点を当てています。
最近の理論では、安定した基本ポリシーを備えたロールアウトアルゴリズムがほぼ最適な安定したポリシーを生成することが示されています。
ルーティング設定では、その実行が時間の経過とともに均一に制限されている未解決の要求の数を維持する場合、ポリシーは安定しています。
展開ベースのアプローチは、将来の需要に関する考慮事項を備えた協力的なマルチエージェントポリシーを学習するのに適していますが、そのような方法を大規模な都市環境に適用することは、安定性に必要な多数のタクシーのために計算的に高価です。
このホワイトペーパーでは、計算コストを削減しながら安定したほぼ最適なポリシーを達成しながら、おおよそのマルチエージェントロールアウトベースの2フェーズアルゴリズムを提案することにより、マルチエージェントロールアウトの計算ボトルネックに対処することを目指しています。
当社のアプローチは、予測された需要と、ユーザーの計算リソースを考慮して順次実行できるタクシーの最大数に基づいて、セクターにグラフを分割します。
このアルゴリズムは、セクター全体でタクシーを再バランスするために瞬間的な割り当て(IA)を適用し、各セクターで並行して実行されるセクター全体のマルチエージェントロールアウトアルゴリズムを適用します。
2つの主な理論的結果を提供します。1)IAが安定しているのに十分なタクシー$ m $の数を特徴付けます。
2)IAの安定性を維持するために、IAの安定性を無限に維持するために、必要な条件を$ M $に導き出します。
私たちの数値結果は、私たちのアプローチが理論的条件を満たす$ m $の安定性を達成することを示しています。
また、提案されている2位のアルゴリズムが、マップ全体で1回のロールアウトと同等のパフォーマンスを持っているが、ランタイムが大幅に低いことを経験的に実証しています。

要約(オリジナル)

In this paper, we focus on the autonomous multiagent taxi routing problem for a large urban environment where the location and number of future ride requests are unknown a-priori, but can be estimated by an empirical distribution. Recent theory has shown that a rollout algorithm with a stable base policy produces a near-optimal stable policy. In the routing setting, a policy is stable if its execution keeps the number of outstanding requests uniformly bounded over time. Although, rollout-based approaches are well-suited for learning cooperative multiagent policies with considerations for future demand, applying such methods to a large urban environment can be computationally expensive due to the large number of taxis required for stability. In this paper, we aim to address the computational bottleneck of multiagent rollout by proposing an approximate multiagent rollout-based two phase algorithm that reduces computational costs, while still achieving a stable near-optimal policy. Our approach partitions the graph into sectors based on the predicted demand and the maximum number of taxis that can run sequentially given the user’s computational resources. The algorithm then applies instantaneous assignment (IA) for re-balancing taxis across sectors and a sector-wide multiagent rollout algorithm that is executed in parallel for each sector. We provide two main theoretical results: 1) characterize the number of taxis $m$ that is sufficient for IA to be stable; 2) derive a necessary condition on $m$ to maintain stability for IA as time goes to infinity. Our numerical results show that our approach achieves stability for an $m$ that satisfies the theoretical conditions. We also empirically demonstrate that our proposed two phase algorithm has equivalent performance to the one-at-a-time rollout over the entire map, but with significantly lower runtimes.

arxiv情報

著者 Daniel Garces,Sushmita Bhattacharya,Dimitri Bertsekas,Stephanie Gil
発行日 2025-02-18 16:08:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO パーマリンク