Learning Decentralized Partially Observable Mean Field Control for Artificial Collective Behavior

要約

最近の強化学習 (RL) 手法は、さまざまな分野で成功を収めています。
ただし、マルチエージェント RL (MARL) は、分散化、部分的な可観測性、および多くのエージェントに対するスケーラビリティの点で依然として課題が残っています。
一方、集団行動には前述の課題の解決が必要であり、活性物質物理学、自己組織化システム、意見力学、生物学的またはロボットの群れなどの多くの最先端のアプリケーションにとって依然として重要です。
ここで、平均場制御 (MFC) を介した MARL は、スケーラビリティに対する潜在的な解決策を提供しますが、分散型で部分的に観測可能なシステムを考慮していません。
この論文では、分散型部分観測可能 MFC (Dec-POMFC) の新しいモデルを提案することにより、部分情報の下でのエージェントの分散型動作を可能にします。これは、扱いやすい単一エージェントのマルコフ決定プロセスへの削減を可能にする、順列不変エージェントに関する広範なクラスの問題です (
MDP) と単一薬剤の RL ソリューション。
当社は、動的計画法原理を含む厳密な理論的結果と、対象となる有限の群に適用される Dec-POMFC ソリューションの最適性保証を提供します。
アルゴリズム的には、集中トレーニングと分散実行を介した MARL 用の Dec-POMFC ベースのポリシー勾配手法と、ポリシー勾配近似の保証を提案します。
さらに、カーネル手法により最先端のヒストグラムベースの MFC を改良しました。これは、完全に観察可能な MFC にとっても興味深いものです。
私たちは、最先端の MARL と同等の、適応された Kuramoto および Vicsek swarming モデルなどの代表的な集団行動タスクを数値的に評価します。
全体として、私たちのフレームワークは、MFC を介した人為的な集団行動の RL ベースのエンジニアリングに向けて一歩を踏み出しました。

要約(オリジナル)

Recent reinforcement learning (RL) methods have achieved success in various domains. However, multi-agent RL (MARL) remains a challenge in terms of decentralization, partial observability and scalability to many agents. Meanwhile, collective behavior requires resolution of the aforementioned challenges, and remains of importance to many state-of-the-art applications such as active matter physics, self-organizing systems, opinion dynamics, and biological or robotic swarms. Here, MARL via mean field control (MFC) offers a potential solution to scalability, but fails to consider decentralized and partially observable systems. In this paper, we enable decentralized behavior of agents under partial information by proposing novel models for decentralized partially observable MFC (Dec-POMFC), a broad class of problems with permutation-invariant agents allowing for reduction to tractable single-agent Markov decision processes (MDP) with single-agent RL solution. We provide rigorous theoretical results, including a dynamic programming principle, together with optimality guarantees for Dec-POMFC solutions applied to finite swarms of interest. Algorithmically, we propose Dec-POMFC-based policy gradient methods for MARL via centralized training and decentralized execution, together with policy gradient approximation guarantees. In addition, we improve upon state-of-the-art histogram-based MFC by kernel methods, which is of separate interest also for fully observable MFC. We evaluate numerically on representative collective behavior tasks such as adapted Kuramoto and Vicsek swarming models, being on par with state-of-the-art MARL. Overall, our framework takes a step towards RL-based engineering of artificial collective behavior via MFC.

arxiv情報

著者 Kai Cui,Sascha Hauck,Christian Fabian,Heinz Koeppl
発行日 2023-07-12 14:02:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, math.OC パーマリンク