Multi-agent Deep Covering Skill Discovery

要約

スキル (別名、オプション) を使用すると、特にスパースな報酬信号しか利用できない場合、強化学習における探索を大幅に加速できます。
オプション発見方法は個々のエージェントに対して提案されていますが、マルチエージェントの強化学習設定では、複数のエージェントの行動を調整し、共同状態空間の未探索領域への訪問を促すことができる協調オプションを発見することは考慮されていませんでした。
この場合、我々は、複数のエージェントの結合状態空間の予想されるカバー時間を最小化することによってマルチエージェントオプションを構築する、マルチエージェントディープカバリングオプション発見を提案する。
また、MARL プロセスでマルチエージェント オプションを採用するための新しいフレームワークを提案します。
実際には、マルチエージェントのタスクは通常、いくつかのサブタスクに分割でき、各サブタスクはエージェントのサブグループによって完了できます。
したがって、私たちのアルゴリズム フレームワークは、まずアテンション メカニズムを活用して、調整されたアクションから最も利益を得る協調的なエージェントのサブグループを見つけます。
次に、階層型アルゴリズム、つまり HA-MSAC が開発され、各サブグループのマルチエージェント オプションを学習して最初にサブタスクを完了し、次に全体のソリューションとして高レベルのポリシーを通じてそれらを統合します。
タスク。
この階層的なオプション構造により、フレームワークはスケーラビリティとエージェント間の効果的なコラボレーションの間でバランスをとることができます。
マルチエージェントの協調タスクに基づく評価では、提案されたアルゴリズムが、アテンションメカニズムとエージェントの相互作用を効果的に捕捉でき、マルチエージェントオプションを首尾よく識別でき、単一エージェントオプションまたはオプションなしを使用した従来の研究よりも、両方の点で大幅に優れていることが示されています。
探索が速くなり、タスクの報酬が高くなります。

要約(オリジナル)

The use of skills (a.k.a., options) can greatly accelerate exploration in reinforcement learning, especially when only sparse reward signals are available. While option discovery methods have been proposed for individual agents, in multi-agent reinforcement learning settings, discovering collaborative options that can coordinate the behavior of multiple agents and encourage them to visit the under-explored regions of their joint state space has not been considered. In this case, we propose Multi-agent Deep Covering Option Discovery, which constructs the multi-agent options through minimizing the expected cover time of the multiple agents’ joint state space. Also, we propose a novel framework to adopt the multi-agent options in the MARL process. In practice, a multi-agent task can usually be divided into some sub-tasks, each of which can be completed by a sub-group of the agents. Therefore, our algorithm framework first leverages an attention mechanism to find collaborative agent sub-groups that would benefit most from coordinated actions. Then, a hierarchical algorithm, namely HA-MSAC, is developed to learn the multi-agent options for each sub-group to complete their sub-tasks first, and then to integrate them through a high-level policy as the solution of the whole task. This hierarchical option construction allows our framework to strike a balance between scalability and effective collaboration among the agents. The evaluation based on multi-agent collaborative tasks shows that the proposed algorithm can effectively capture the agent interactions with the attention mechanism, successfully identify multi-agent options, and significantly outperforms prior works using single-agent options or no options, in terms of both faster exploration and higher task rewards.

arxiv情報

著者 Jiayu Chen,Marina Haliem,Tian Lan,Vaneet Aggarwal
発行日 2023-09-21 17:01:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA パーマリンク