Learning Reward Machines in Cooperative Multi-Agent Tasks

要約

タイトル: 協力マルチエージェントタスクにおける報酬関数の学習

要約:
– 本論文では、協力タスクの分解とサブタスクの構造を符号化する報酬関数(RMs)の学習を組み合わせた、マルチエージェント強化学習(MARL)の新しい手法を提案している。
– この手法は、部分的に観測可能な環境での報酬の非マルコフ性に対処し、協力タスクを完了するために必要な学習されたポリシーの解釈可能性を向上させることができる。
– 各サブタスクに関連付けられたRMsは、分散型で学習され、それぞれのエージェントの行動を導くために使用される。
– このようにすることで、協力マルチエージェント問題の複雑さが低減され、より効果的な学習が可能になる。
– 結果は、特に大きな状態空間と複数のエージェントを持つ複雑な環境でのMARLにおいて、この手法が将来の研究にとって有望な方向性であることを示唆している。

要約(オリジナル)

This paper presents a novel approach to Multi-Agent Reinforcement Learning (MARL) that combines cooperative task decomposition with the learning of reward machines (RMs) encoding the structure of the sub-tasks. The proposed method helps deal with the non-Markovian nature of the rewards in partially observable environments and improves the interpretability of the learnt policies required to complete the cooperative task. The RMs associated with each sub-task are learnt in a decentralised manner and then used to guide the behaviour of each agent. By doing so, the complexity of a cooperative multi-agent problem is reduced, allowing for more effective learning. The results suggest that our approach is a promising direction for future research in MARL, especially in complex environments with large state spaces and multiple agents.

arxiv情報

著者 Leo Ardon,Daniel Furelos-Blanco,Alessandra Russo
発行日 2023-03-31 14:38:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.MA, cs.SC パーマリンク