Using deep reinforcement learning to promote sustainable human behaviour on a common pool resource problem

要約

典型的な社会的ジレンマは、有限の資源が人々のグループに割り当てられ、人々が利子を持ってお返しするか、収益を自分のものにしておくことを選択できる場合に発生します。
どのような資源配分メカニズムが、コモンズを維持するレベルの相互利用を促進するのでしょうか?
ここでは、反復マルチプレイヤー トラスト ゲームで、深層強化学習 (RL) を使用して、共通プール リソースへの人間の参加者からの持続可能な貢献を内生的に促進する割り当てメカニズムを設計します。
私たちはまず、ニューラル ネットワークを人間のプレーヤーのように動作するように訓練し、刺激された経済を作り出し、さまざまなメカニズムが受け取りと返礼のダイナミクスにどのような影響を与えるかを研究できるようにしました。
次に、RL を使用してソーシャル プランナーをトレーニングし、プレイヤーへの総収益を最大化しました。
社会計画者は、プレイヤーがほぼ同等の利益を得る、大きな黒字と包摂的な経済をもたらす再分配政策を発見しました。
RLエージェントは、利用可能な資源に寛大さを条件付け、亡命者に割り当てる資源を減らして一時的に制裁することにより、無制限の福利厚生や条件付き協力に基づく基本メカニズムよりも人的余剰を増加させた。
AI ポリシーを検討することで、同様に機能し、プレイヤーの間でより人気のある説明可能なメカニズムを開発することができました。
深層強化学習は、人間の持続可能な行動を促進するメカニズムを発見するために使用できます。

要約(オリジナル)

A canonical social dilemma arises when finite resources are allocated to a group of people, who can choose to either reciprocate with interest, or keep the proceeds for themselves. What resource allocation mechanisms will encourage levels of reciprocation that sustain the commons? Here, in an iterated multiplayer trust game, we use deep reinforcement learning (RL) to design an allocation mechanism that endogenously promotes sustainable contributions from human participants to a common pool resource. We first trained neural networks to behave like human players, creating a stimulated economy that allowed us to study how different mechanisms influenced the dynamics of receipt and reciprocation. We then used RL to train a social planner to maximise aggregate return to players. The social planner discovered a redistributive policy that led to a large surplus and an inclusive economy, in which players made roughly equal gains. The RL agent increased human surplus over baseline mechanisms based on unrestricted welfare or conditional cooperation, by conditioning its generosity on available resources and temporarily sanctioning defectors by allocating fewer resources to them. Examining the AI policy allowed us to develop an explainable mechanism that performed similarly and was more popular among players. Deep reinforcement learning can be used to discover mechanisms that promote sustainable human behaviour.

arxiv情報

著者 Raphael Koster,Miruna Pîslar,Andrea Tacchetti,Jan Balaguer,Leqi Liu,Romuald Elie,Oliver P. Hauser,Karl Tuyls,Matt Botvinick,Christopher Summerfield
発行日 2024-04-23 14:07:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.GT パーマリンク