要約
AI システムの安全性と調整に関する懸念の高まりは、人工エージェントに道徳的能力を組み込むことの重要性を浮き彫りにしています。
有望な解決策は、経験からの学習、つまり強化学習の使用です。
マルチエージェント(社会)環境では、個々の学習エージェント間の相互作用から複雑な集団レベルの現象が現れる可能性があります。
既存の研究の多くは、シミュレーションされた社会的ジレンマ環境に依存して、独立した学習エージェントの相互作用を研究しています。
しかし、彼らは、実際のエージェントの社会に存在する可能性が高い道徳的異質性を無視する傾向があります。
たとえば、さまざまな時点で、単一の学習エージェントは、結果主義者 (つまり、時間の経過とともに何らかの結果を最大化することに関心を持つ) または規範ベース (つまり、今ここで特定の規範に従うことに重点を置く) の敵に直面する可能性があります。
エージェントの共同開発が集団内のそのような道徳的不均一性によってどの程度影響を受けるかについては、十分に理解されていません。
この論文では、社会的ジレンマ環境で相互作用する道徳的に異質な集団の学習ダイナミクスの研究を紹介します。
パートナー選択メカニズムを備えた囚人のジレンマ環境を使用して、集団内の多様な道徳エージェントの蔓延が個々のエージェントの学習行動と新たな集団レベルの結果にどの程度影響を与えるかを調査します。
私たちは、向社会的エージェントと反社会的エージェントの間のいくつかの種類の重要な相互作用を観察し、特定のクラスの道徳的エージェントが利己的なエージェントをより協力的な行動に導くことができることを発見しました。
要約(オリジナル)
Growing concerns about safety and alignment of AI systems highlight the importance of embedding moral capabilities in artificial agents. A promising solution is the use of learning from experience, i.e., Reinforcement Learning. In multi-agent (social) environments, complex population-level phenomena may emerge from interactions between individual learning agents. Many of the existing studies rely on simulated social dilemma environments to study the interactions of independent learning agents. However, they tend to ignore the moral heterogeneity that is likely to be present in societies of agents in practice. For example, at different points in time a single learning agent may face opponents who are consequentialist (i.e., caring about maximizing some outcome over time) or norm-based (i.e., focusing on conforming to a specific norm here and now). The extent to which agents’ co-development may be impacted by such moral heterogeneity in populations is not well understood. In this paper, we present a study of the learning dynamics of morally heterogeneous populations interacting in a social dilemma setting. Using a Prisoner’s Dilemma environment with a partner selection mechanism, we investigate the extent to which the prevalence of diverse moral agents in populations affects individual agents’ learning behaviors and emergent population-level outcomes. We observe several types of non-trivial interactions between pro-social and anti-social agents, and find that certain classes of moral agents are able to steer selfish agents towards more cooperative behavior.
arxiv情報
著者 | Elizaveta Tennant,Stephen Hailes,Mirco Musolesi |
発行日 | 2024-03-26 17:18:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google