Decentralized Multi-Agent Reinforcement Learning with Global State Prediction

要約

深層強化学習 (DRL) は、単一ロボットの制御において目覚ましい成功を収めています。
ただし、DRL をロボット群に適用するには、大きな課題が生じます。
重要な課題は非定常性です。これは、2 つ以上のロボットが個別のポリシーまたは共有ポリシーを同時に更新し、それによって収束の保証がない相互依存のトレーニング プロセスに従事するときに発生します。
非定常性を回避するには、通常、他のエージェントの状態や動作に関するグローバル情報を使用してロボットをトレーニングする必要があります。
対照的に、この論文では、グローバル情報の必要性を取り除く方法を検討します。
他のエージェントに関するグローバルな知識が存在しないため、我々は問題を部分的に観察可能なマルコフ決定プロセスとして提起します。
集団輸送をテストベッド シナリオとして使用し、マルチエージェント トレーニングへの 2 つのアプローチを研究します。
1 つ目では、ロボットはメッセージを交換せず、輸送する物体を押したり引いたりすることによる暗黙の通信に依存するように訓練されます。
2 番目のアプローチでは、群れ全体に対する信念を形成し、その将来の状態を予測するように訓練されたネットワークである Global State Prediction (GSP) を導入します。
私たちは、障害物のある環境における 4 つのよく知られた深層強化学習アルゴリズムに関する包括的な調査を提供し、目的の時間枠内でオブジェクトを目標までうまく輸送するパフォーマンスを測定します。
アブレーション研究を通じて、GSP を組み込むと、グローバルな知識を使用する方法と比較してパフォーマンスが向上し、堅牢性が向上することがわかりました。

要約(オリジナル)

Deep reinforcement learning (DRL) has seen remarkable success in the control of single robots. However, applying DRL to robot swarms presents significant challenges. A critical challenge is non-stationarity, which occurs when two or more robots update individual or shared policies concurrently, thereby engaging in an interdependent training process with no guarantees of convergence. Circumventing non-stationarity typically involves training the robots with global information about other agents’ states and/or actions. In contrast, in this paper we explore how to remove the need for global information. We pose our problem as a Partially Observable Markov Decision Process, due to the absence of global knowledge on other agents. Using collective transport as a testbed scenario, we study two approaches to multi-agent training. In the first, the robots exchange no messages, and are trained to rely on implicit communication through push-and-pull on the object to transport. In the second approach, we introduce Global State Prediction (GSP), a network trained to forma a belief over the swarm as a whole and predict its future states. We provide a comprehensive study over four well-known deep reinforcement learning algorithms in environments with obstacles, measuring performance as the successful transport of the object to the goal within a desired time-frame. Through an ablation study, we show that including GSP boosts performance and increases robustness when compared with methods that use global knowledge.

arxiv情報

著者 Joshua Bloom,Pranjal Paliwal,Apratim Mukherjee,Carlo Pinciroli
発行日 2023-08-28 17:33:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO パーマリンク