要約
現実世界のマルチエージェント学習の問題の多くには、安全性に関する懸念が伴います。
これらの設定では、一般的な安全な強化学習アルゴリズムがエージェントの動作を制限し、マルチエージェントの効果的な協調動作を発見するための重要なコンポーネントである探索を制限します。
さらに、マルチエージェントの文献では通常、各エージェントの個別の制約がモデル化されており、共同チームの制約を使用するメリットについてはまだ調査されていません。
この研究では、これらのチームの制約を理論的および実践的な観点から分析し、探索問題に対処するための制約付きマルチエージェント強化学習 (E2C) のエントロピー探索を提案します。
E2C は観測エントロピーの最大化を活用して探索を奨励し、安全で効果的な協力行動の学習を促進します。
ますます複雑化するドメインにわたる実験では、E2C エージェントはタスク パフォーマンスにおいて一般的な制約なしおよび制約のあるベースラインと同等またはそれを上回り、危険な動作を最大 $50\%$ 削減することが示されています。
要約(オリジナル)
Many real-world multiagent learning problems involve safety concerns. In these setups, typical safe reinforcement learning algorithms constrain agents’ behavior, limiting exploration — a crucial component for discovering effective cooperative multiagent behaviors. Moreover, the multiagent literature typically models individual constraints for each agent and has yet to investigate the benefits of using joint team constraints. In this work, we analyze these team constraints from a theoretical and practical perspective and propose entropic exploration for constrained multiagent reinforcement learning (E2C) to address the exploration issue. E2C leverages observation entropy maximization to incentivize exploration and facilitate learning safe and effective cooperative behaviors. Experiments across increasingly complex domains show that E2C agents match or surpass common unconstrained and constrained baselines in task performance while reducing unsafe behaviors by up to $50\%$.
arxiv情報
著者 | Ayhan Alp Aydeniz,Enrico Marchesini,Robert Loftin,Christopher Amato,Kagan Tumer |
発行日 | 2024-12-29 05:50:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google