Innate-Values-driven Reinforcement Learning for Cooperative Multi-Agent Systems

要約

生得的価値観は、エージェントの内発的動機を表し、目標を追求するためのエージェントの固有の興味や好みを反映し、さまざまなニーズを満たす多様なスキルを開発するように促します。
強化学習 (RL) の本質は、自然のエージェントと同様に、報酬駆動型 (ユーティリティなど) の行動に基づいた相互作用から学習することです。
これは、AI エージェントの生得的価値駆動 (IV) 行動を説明するための優れたモデルです。
特にマルチエージェント システム (MAS) では、グループの公共料金とシステム コストのバランスを取り、グループ メンバーの協力におけるニーズを満たすための AI エージェントの認識を構築することは、コミュニティをサポートし、人間社会を社会に統合することを学ぶ個人にとって重要な問題です。
長期。
この論文では、マルチエージェントの協力における相互作用の複雑な動作を記述するために、階層型複合固有値強化学習モデル、つまり IVRL と呼ばれる生得価値駆動型強化学習を提案します。
StarCraft マルチエージェント チャレンジ (SMAC) 環境に IVRL アーキテクチャを実装し、3 つのベンチマーク マルチエージェント RL アルゴリズム (QMIX、IQL、および
クトラン。
この結果は、個人のさまざまなニーズを合理的に整理することで、グループが効果的により低いコストでより高いパフォーマンスを達成できることを示しています。

要約(オリジナル)

Innate values describe agents’ intrinsic motivations, which reflect their inherent interests and preferences to pursue goals and drive them to develop diverse skills satisfying their various needs. The essence of reinforcement learning (RL) is learning from interaction based on reward-driven (such as utilities) behaviors, much like natural agents. It is an excellent model to describe the innate-values-driven (IV) behaviors of AI agents. Especially in multi-agent systems (MAS), building the awareness of AI agents to balance the group utilities and system costs and satisfy group members’ needs in their cooperation is a crucial problem for individuals learning to support their community and integrate human society in the long term. This paper proposes a hierarchical compound intrinsic value reinforcement learning model — innate-values-driven reinforcement learning termed IVRL to describe the complex behaviors of multi-agent interaction in their cooperation. We implement the IVRL architecture in the StarCraft Multi-Agent Challenge (SMAC) environment and compare the cooperative performance within three characteristics of innate value agents (Coward, Neutral, and Reckless) through three benchmark multi-agent RL algorithms: QMIX, IQL, and QTRAN. The results demonstrate that by organizing individual various needs rationally, the group can achieve better performance with lower costs effectively.

arxiv情報

著者 Qin Yang
発行日 2024-01-10 22:51:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO パーマリンク