Mixture of personality improved Spiking actor network for efficient multi-agent cooperation

要約

タイトル:個性の混合が改善したスパイキングアクターネットワークによる効率的なマルチエージェント協力

要約:
– マルチエージェント強化学習の研究分野において、人間とエージェントの協力およびエージェント同士の協力の適応性がますます重要になっています。
– 深層ニューラルネットワークの支援を受けて、多くの確立されたアルゴリズムが良好な学習パラダイムを持ちますが、他の未知のパートナーとの協力中に一般化性が乏しいことがあります。
– 認知心理学の個性理論によれば、人間は他者の個性を予測し、その複雑な行動を予測することで、上記の協力の課題をうまく処理できます。
– この2段階の心理学理論に着想を得て、混合された個性(MoP)が改善されたスパイキングアクターネットワーク(SAN)を提案しています。
– 決定的点プロセスはMoP内で異なるタイプの個性の複雑な形成と統合をシミュレートするために使用され、SANには効率的な強化学習のために動的でスパイキングするニューロンが組み込まれています。
– 協力的な料理に強い要件を持つ基準のOvercookedタスクがMoP-SANをテストするために選択されました。
– 実験結果は、MoP-SANが学習パラダイムだけでなく一般化テスト(つまり、他の未知のエージェントとの協力)パラダイムでも高い性能を発揮でき、多くの相当する深層アクターネットワークが失敗することを示しています。
– DNNが一般化テストでパフォーマンスが低い理由を説明するために必要な抜本的な実験と視覚化分析が行われました。

要約(オリジナル)

Adaptive human-agent and agent-agent cooperation are becoming more and more critical in the research area of multi-agent reinforcement learning (MARL), where remarked progress has been made with the help of deep neural networks. However, many established algorithms can only perform well during the learning paradigm but exhibit poor generalization during cooperation with other unseen partners. The personality theory in cognitive psychology describes that humans can well handle the above cooperation challenge by predicting others’ personalities first and then their complex actions. Inspired by this two-step psychology theory, we propose a biologically plausible mixture of personality (MoP) improved spiking actor network (SAN), whereby a determinantal point process is used to simulate the complex formation and integration of different types of personality in MoP, and dynamic and spiking neurons are incorporated into the SAN for the efficient reinforcement learning. The benchmark Overcooked task, containing a strong requirement for cooperative cooking, is selected to test the proposed MoP-SAN. The experimental results show that the MoP-SAN can achieve both high performances during not only the learning paradigm but also the generalization test (i.e., cooperation with other unseen agents) paradigm where most counterpart deep actor networks failed. Necessary ablation experiments and visualization analyses were conducted to explain why MoP and SAN are effective in multi-agent reinforcement learning scenarios while DNN performs poorly in the generalization test.

arxiv情報

著者 Xiyun Li,Ziyi Ni,Jingqing Ruan,Linghui Meng,Jing Shi,Tielin Zhang,Bo Xu
発行日 2023-05-10 05:01:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.MA, cs.NE パーマリンク