Emergent Dominance Hierarchies in Reinforcement Learning Agents

要約

最新の強化学習 (RL) アルゴリズムは、さまざまなタスクで人間を上回るパフォーマンスを発揮できます。
マルチエージェント強化学習 (MARL) 設定にはさらなる課題があり、動機が混在するエージェントのグループでうまく協力できるかどうかは、個人とグループの目標の間の微妙なバランス調整にかかっています。
社会的な慣習や規範は、多くの場合人間の制度に影響を受けて、このバランスをとるためのツールとして使用されます。
この論文では、動物社会と人間社会の両方における協力の根底にある、よく研究された基本的な社会慣習である支配階層について考察します。
私たちは、確立された用語と定義をできるだけ少ない修正で借用し、支配階層の行動学的理論を人工エージェントに適応させます。
私たちは、明示的なプログラミングや固有の報酬なしで動作する RL エージェントの集団が、支配階層を発明し、学習し、強制し、新しい集団に伝達できることを実証します。
出現する優勢階層は、ニワトリ、マウス、魚、その他の種で研究されたものと同様の構造を持っています。

要約(オリジナル)

Modern Reinforcement Learning (RL) algorithms are able to outperform humans in a wide variety of tasks. Multi-agent reinforcement learning (MARL) settings present additional challenges, and successful cooperation in mixed-motive groups of agents depends on a delicate balancing act between individual and group objectives. Social conventions and norms, often inspired by human institutions, are used as tools for striking this balance. In this paper, we examine a fundamental, well-studied social convention that underlies cooperation in both animal and human societies: dominance hierarchies. We adapt the ethological theory of dominance hierarchies to artificial agents, borrowing the established terminology and definitions with as few amendments as possible. We demonstrate that populations of RL agents, operating without explicit programming or intrinsic rewards, can invent, learn, enforce, and transmit a dominance hierarchy to new populations. The dominance hierarchies that emerge have a similar structure to those studied in chickens, mice, fish, and other species.

arxiv情報

著者 Ram Rachum,Yonatan Nakar,Bill Tomlinson,Nitay Alon,Reuth Mirsky
発行日 2024-04-23 15:08:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.LG, cs.MA パーマリンク