Learning Reward Machines in Cooperative Multi-Agent Tasks

要約

この論文では、サブタスクの構造をエンコードする報酬マシン (RM) の学習と協調タスク分解を組み合わせたマルチエージェント強化学習 (MARL) への新しいアプローチを提示します。
提案された方法は、部分的に観測可能な環境における報酬の非マルコフ的性質に対処するのに役立ち、協調タスクを完了するために必要な学習されたポリシーの解釈可能性を向上させます。
各サブタスクに関連付けられた RM は、分散化された方法で学習され、各エージェントの動作をガイドするために使用されます。
そうすることで、協調マルチエージェント問題の複雑さが軽減され、より効果的な学習が可能になります。
結果は、特に大きな状態空間と複数のエージェントを含む複雑な環境で、私たちのアプローチが MARL の将来の研究の有望な方向性であることを示唆しています。

要約(オリジナル)

This paper presents a novel approach to Multi-Agent Reinforcement Learning (MARL) that combines cooperative task decomposition with the learning of reward machines (RMs) encoding the structure of the sub-tasks. The proposed method helps deal with the non-Markovian nature of the rewards in partially observable environments and improves the interpretability of the learnt policies required to complete the cooperative task. The RMs associated with each sub-task are learnt in a decentralised manner and then used to guide the behaviour of each agent. By doing so, the complexity of a cooperative multi-agent problem is reduced, allowing for more effective learning. The results suggest that our approach is a promising direction for future research in MARL, especially in complex environments with large state spaces and multiple agents.

arxiv情報

著者 Leo Ardon,Daniel Furelos-Blanco,Alessandra Russo
発行日 2023-03-24 15:12:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.SC パーマリンク