Safe Model-Based Multi-Agent Mean-Field Reinforcement Learning

要約

共有モビリティなどの多くのアプリケーションでは、多数のエージェントを調整する必要があります。
平均場強化学習は、代表エージェントのポリシーを最適化することで、結果として生じるスケーラビリティの課題に対処します。
このホワイトペーパーでは、エージェントの分散にグローバルな制約が存在する場合の重要な一般化について説明します (例: キャパシティ制約や最小カバレッジ要件を満たす必要があるなど)。
我々は、未知の遷移ダイナミクスの場合でも安全なポリシーを達成する最初のモデルベースのアルゴリズムである Safe-$\text{M}^3$-UCRL を提案します。
重要な要素として、対数障壁アプローチ内の遷移モデルで認識論的不確実性を使用し、悲観的な制約を高い確率で満たすことを保証します。
私たちは、多くのシェアード モビリティ オペレーターが直面する車両位置変更の問題に関する Safe-$\text{M}^3$-UCRL を紹介し、深センのタクシー軌跡データに基づいて構築されたシミュレーションを通じてそのパフォーマンスを評価します。
当社のアルゴリズムは、需要が低い地域でのサービスへのアクセスを確保しながら、重要なエリアの需要を効果的に満たします。

要約(オリジナル)

Many applications, e.g., in shared mobility, require coordinating a large number of agents. Mean-field reinforcement learning addresses the resulting scalability challenge by optimizing the policy of a representative agent. In this paper, we address an important generalization where there exist global constraints on the distribution of agents (e.g., requiring capacity constraints or minimum coverage requirements to be met). We propose Safe-$\text{M}^3$-UCRL, the first model-based algorithm that attains safe policies even in the case of unknown transition dynamics. As a key ingredient, it uses epistemic uncertainty in the transition model within a log-barrier approach to ensure pessimistic constraints satisfaction with high probability. We showcase Safe-$\text{M}^3$-UCRL on the vehicle repositioning problem faced by many shared mobility operators and evaluate its performance through simulations built on Shenzhen taxi trajectory data. Our algorithm effectively meets the demand in critical areas while ensuring service accessibility in regions with low demand.

arxiv情報

著者 Matej Jusup,Barna Pásztor,Tadeusz Janik,Kenan Zhang,Francesco Corman,Andreas Krause,Ilija Bogunovic
発行日 2023-06-29 15:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, stat.ML パーマリンク