要約
この研究では、よく知られた複数の車両の経路指定問題の一般化を検討します。ネットワーク、そのノードのサブセットを占有するエージェントのセット、およびタスクのセットを考慮して、次の制約を受ける最小コストの移動シーケンスを求めます。
各タスクには、何らかのエージェントが少なくとも 1 回アクセスします。
この問題の古典的なバージョンでは、システム全体の状態を完全に監視し、集中制御スキームに従って個々のエージェントを指示する中央計算サーバーを前提としています。
対照的に、集中サーバーは存在せず、各エージェントは基礎となるネットワーク (タスクとエージェントの場所を含む) についての先験的な知識を持たない個別のプロセッサであると仮定します。
さらに、当社のエージェントは、厳密にローカルな通信およびセンシング機能 (それぞれの場所の周囲の固定半径に制限) を備えており、現実世界の複数のマルチエージェント アプリケーションとより緊密に連携しています。
これらの制限により多くの課題が生じますが、ローカルな情報共有とエージェント間の直接調整によって克服されます。
我々は、この問題に対して、完全に分散されたオンラインでスケーラブルな強化学習アルゴリズムを提案します。これにより、エージェントはローカル クラスターに自己組織化され、各クラスターにローカルでマルチエージェント ロールアウト スキームを個別に適用します。
私たちは、広範なシミュレーションを通じて、分散ロールアウト アルゴリズムが貪欲な基本ポリシーよりも改善し始める重要なセンシング半径が存在することを経験的に示しています。
この臨界感知半径は、ネットワークのサイズの $\log^*$ 関数に比例して増加するため、関連するネットワークでは小さな定数になります。
当社の分散強化学習アルゴリズムは、臨界センシング半径のそれぞれ 2 倍と 3 倍で区切られた範囲の半径に対して、基本ポリシーと比較して約 2 倍のコスト改善を達成します。
要約(オリジナル)
In this work we consider a generalization of the well-known multivehicle routing problem: given a network, a set of agents occupying a subset of its nodes, and a set of tasks, we seek a minimum cost sequence of movements subject to the constraint that each task is visited by some agent at least once. The classical version of this problem assumes a central computational server that observes the entire state of the system perfectly and directs individual agents according to a centralized control scheme. In contrast, we assume that there is no centralized server and that each agent is an individual processor with no a priori knowledge of the underlying network (including task and agent locations). Moreover, our agents possess strictly local communication and sensing capabilities (restricted to a fixed radius around their respective locations), aligning more closely with several real-world multiagent applications. These restrictions introduce many challenges that are overcome through local information sharing and direct coordination between agents. We present a fully distributed, online, and scalable reinforcement learning algorithm for this problem whereby agents self-organize into local clusters and independently apply a multiagent rollout scheme locally to each cluster. We demonstrate empirically via extensive simulations that there exists a critical sensing radius beyond which the distributed rollout algorithm begins to improve over a greedy base policy. This critical sensing radius grows proportionally to the $\log^*$ function of the size of the network, and is, therefore, a small constant for any relevant network. Our decentralized reinforcement learning algorithm achieves approximately a factor of two cost improvement over the base policy for a range of radii bounded from below and above by two and three times the critical sensing radius, respectively.
arxiv情報
著者 | Jamison W. Weber,Dhanush R. Giriyan,Devendra R. Parkar,Andréa W. Richa,Dimitri P. Bertsekas |
発行日 | 2024-02-12 18:03:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google