要約
エージェントが環境の完全な状態を観察できない場合、マルチエージェントの強化学習ではコミュニケーションが非常に重要です。
エージェント間の学習された通信を可能にする最も一般的なアプローチは、フィードバックの形式としてエージェント間で勾配を流すことを可能にする微分可能な通信チャネルを使用することです。
ただし、勾配は個別の通信チャネルを介して流れることができないため、個別のメッセージを使用してメッセージ サイズを削減する場合、これは困難です。
以前の研究では、この問題に対処する方法が提案されていました。
ただし、これらの方法はさまざまな通信学習アーキテクチャと環境でテストされているため、比較するのが困難です。
この論文では、いくつかの最先端の離散化手法と新しいアプローチを比較します。
この比較は、他のエージェントからの勾配を使用したコミュニケーション学習のコンテキストで行い、いくつかの環境でテストを実行します。
さらに、DIAL と学習率スケーリングと適応探索で拡張された COMA に基づく通信学習アプローチである COMA-DIAL を紹介します。
COMA-DIAL を使用すると、より複雑な環境で実験を行うことができます。
私たちの結果は、この論文で提案した新しい ST-DRU 手法が、さまざまな環境にわたってすべての離散化手法の中で最高の結果を達成することを示しています。
これは、各実験で最高または最高に近いパフォーマンスを達成し、テストされたどの環境でも失敗しない唯一の方法です。
要約(オリジナル)
Communication is crucial in multi-agent reinforcement learning when agents are not able to observe the full state of the environment. The most common approach to allow learned communication between agents is the use of a differentiable communication channel that allows gradients to flow between agents as a form of feedback. However, this is challenging when we want to use discrete messages to reduce the message size, since gradients cannot flow through a discrete communication channel. Previous work proposed methods to deal with this problem. However, these methods are tested in different communication learning architectures and environments, making it hard to compare them. In this paper, we compare several state-of-the-art discretization methods as well as a novel approach. We do this comparison in the context of communication learning using gradients from other agents and perform tests on several environments. In addition, we present COMA-DIAL, a communication learning approach based on DIAL and COMA extended with learning rate scaling and adapted exploration. Using COMA-DIAL allows us to perform experiments on more complex environments. Our results show that the novel ST-DRU method, proposed in this paper, achieves the best results out of all discretization methods across the different environments. It achieves the best or close to the best performance in each of the experiments and is the only method that does not fail on any of the tested environments.
arxiv情報
著者 | Astrid Vanneste,Simon Vanneste,Kevin Mets,Tom De Schepper,Siegfried Mercelis,Peter Hellinckx |
発行日 | 2023-08-09 13:13:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google