Learning Reward Machines in Cooperative Multi-Agent Tasks


この論文では、サブタスクの構造をエンコードする報酬マシン (RM) の学習と協調タスク分解を組み合わせたマルチエージェント強化学習 (MARL) への新しいアプローチを提示します。
各サブタスクに関連付けられた RM は、分散化された方法で学習され、各エージェントの動作をガイドするために使用されます。
結果は、特に大きな状態空間と複数のエージェントを含む複雑な環境で、私たちのアプローチが MARL の将来の研究の有望な方向性であることを示唆しています。


This paper presents a novel approach to Multi-Agent Reinforcement Learning (MARL) that combines cooperative task decomposition with the learning of reward machines (RMs) encoding the structure of the sub-tasks. The proposed method helps deal with the non-Markovian nature of the rewards in partially observable environments and improves the interpretability of the learnt policies required to complete the cooperative task. The RMs associated with each sub-task are learnt in a decentralised manner and then used to guide the behaviour of each agent. By doing so, the complexity of a cooperative multi-agent problem is reduced, allowing for more effective learning. The results suggest that our approach is a promising direction for future research in MARL, especially in complex environments with large state spaces and multiple agents.


著者 Leo Ardon,Daniel Furelos-Blanco,Alessandra Russo
発行日 2023-03-24 15:12:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.SC パーマリンク