Learning Multi-agent Skills for Tabular Reinforcement Learning using Factor Graphs

要約

カバリング スキル (別名、オプション) ディスカバリは、状態遷移グラフのフィードラー ベクトルによって提供される埋め込み空間内の最も遠い状態を接続することにより、報酬信号がまばらなシングル エージェント シナリオにおける強化学習の探索を改善するために開発されました。
ただし、システム内のエージェントの数に応じて共同状態空間が指数関数的に増大するため、これらのオプション検出方法をマルチエージェント シナリオに直接拡張することはできません。
したがって、マルチエージェントシナリオにおけるオプションの採用に関する既存の研究は依然として単一エージェントのオプション発見に依存しており、エージェントの共同状態空間の接続性を改善できる共同オプションを直接発見することができていない。
この論文では、分解の容易さを享受しながら、エージェント間の協力的な探索行動によりマルチエージェントのオプションを直接計算することが実際に可能であることを示します。
私たちの重要なアイデアは、関節状態空間をクロネッカー グラフ (個々のエージェントの状態遷移グラフのクロネッカー積) として近似することであり、これに基づいて、個々のエージェントの遷移グラフのラプラシアン スペクトルを使用して関節状態空間のフィードラー ベクトルを直接推定できます。
この分解により、推定された関節フィードラー ベクトルの最小値または最大値に対応するサブゴール関節状態を接続するようエージェントに促すことにより、マルチエージェント関節オプションを効率的に構築できるようになります。
マルチエージェントの共同タスクに基づく評価では、提案されたアルゴリズムがマルチエージェントのオプションを首尾よく識別でき、より高速な探索とより高い累積報酬の両方の点で、単一エージェントのオプションまたはオプションなしを使用した以前の研究よりも大幅に優れていることが示されています。

要約(オリジナル)

Covering skill (a.k.a., option) discovery has been developed to improve the exploration of reinforcement learning in single-agent scenarios with sparse reward signals, through connecting the most distant states in the embedding space provided by the Fiedler vector of the state transition graph. However, these option discovery methods cannot be directly extended to multi-agent scenarios, since the joint state space grows exponentially with the number of agents in the system. Thus, existing researches on adopting options in multi-agent scenarios still rely on single-agent option discovery and fail to directly discover the joint options that can improve the connectivity of the joint state space of agents. In this paper, we show that it is indeed possible to directly compute multi-agent options with collaborative exploratory behaviors among the agents, while still enjoying the ease of decomposition. Our key idea is to approximate the joint state space as a Kronecker graph — the Kronecker product of individual agents’ state transition graphs, based on which we can directly estimate the Fiedler vector of the joint state space using the Laplacian spectrum of individual agents’ transition graphs. This decomposition enables us to efficiently construct multi-agent joint options by encouraging agents to connect the sub-goal joint states which are corresponding to the minimum or maximum values of the estimated joint Fiedler vector. The evaluation based on multi-agent collaborative tasks shows that the proposed algorithm can successfully identify multi-agent options, and significantly outperforms prior works using single-agent options or no options, in terms of both faster exploration and higher cumulative rewards.

arxiv情報

著者 Jiayu Chen,Jingdi Chen,Tian Lan,Vaneet Aggarwal
発行日 2023-07-21 13:42:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク