Graph Exploration for Effective Multi-agent Q-Learning

要約

タイトル:有効なマルチエージェントQ学習のためのグラフ探索

要約:本論文は、エージェント間のグラフベースのコミュニケーションを用いたマルチエージェント強化学習(MARL)の探索技術を提案している。提案されたフレームワークでは、周辺のエージェントが協力して状態-行動空間の不確実性を推定し、より効率的な探索行動を実行するための手法が提案されている。既存の手法とは異なり、提案されたアルゴリズムは数え上げ機構を必要とせず、複雑な変換技術を必要とせず、連続状態の環境に適用することができる。さらに、提案された手法により、エージェントは情報交換を最小限に抑え、完全に分散化された形で通信することができる。そして、連続状態のシナリオの場合、各エージェントは1つのパラメータベクトルのみを交換する必要がある。このアルゴリズムの性能は、離散状態のシナリオに対する理論的な結果と、連続状態のシナリオに対する実験によって検証されている。

– マルチエージェント強化学習(MARL)の探索技術を提案
– グラフベースのコミュニケーションにより、周辺のエージェントが協力して状態-行動空間の不確実性を推定し、効率的な探索を行う
– 既存の手法とは異なり、数え上げ機構を必要とせず、複雑な変換技術を必要とせず、連続状態の環境に適用可能
– 完全に分散化された形で通信することができ、情報交換を最小限に抑える
– 連続状態のシナリオの場合、各エージェントは1つのパラメータベクトルのみを交換する必要あり
– 理論的な結果と実験により、性能を検証

要約(オリジナル)

This paper proposes an exploration technique for multi-agent reinforcement learning (MARL) with graph-based communication among agents. We assume the individual rewards received by the agents are independent of the actions by the other agents, while their policies are coupled. In the proposed framework, neighbouring agents collaborate to estimate the uncertainty about the state-action space in order to execute more efficient explorative behaviour. Different from existing works, the proposed algorithm does not require counting mechanisms and can be applied to continuous-state environments without requiring complex conversion techniques. Moreover, the proposed scheme allows agents to communicate in a fully decentralized manner with minimal information exchange. And for continuous-state scenarios, each agent needs to exchange only a single parameter vector. The performance of the algorithm is verified with theoretical results for discrete-state scenarios and with experiments for continuous ones.

arxiv情報

著者 Ainur Zhaikhan,Ali H. Sayed
発行日 2023-04-19 10:28:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.MA パーマリンク