Risk-Sensitive Multi-Agent Reinforcement Learning in Network Aggregative Markov Games

要約

従来のマルチエージェント強化学習 (MARL) は、エージェントのリスク中立性と完全な客観性を前提としています。
ただし、エージェントが人間の経済的または社会的選好を考慮またはモデル化する必要がある設定では、リスクの概念を RL 最適化問題に組み込む必要があります。
これは、他の人間または人間以外のエージェントが関与し、おそらく独自のリスクに敏感なポリシーを持っている MARL では、より重要になります。
この研究では、非凸リスク尺度と一貫したリスク尺度の一般化である累積プロスペクト理論 (CPT) を使用して、リスクに敏感で非協力的な MARL を検討します。
CPT は、人間の損失回避傾向と、大小の確率を過大評価/過小評価する傾向を説明できます。
我々は、ネットワーク集合マルコフ ゲーム (NAMG) に対する CPT リスクを伴う分散サンプリングベースのアクタークリティック (AC) アルゴリズムを提案します。これを分散ネスト CPT-AC と呼びます。
一連の仮定の下で、NAMG におけるマルコフ完全ナッシュ均衡の主観的な概念へのアルゴリズムの収束を証明します。
実験結果は、私たちのアルゴリズムによって得られた主観的な CPT ポリシーがリスク中立的なポリシーとは異なる可能性があり、損失回避性が高いエージェントは NAMG 内で社会的に孤立する傾向が高いことを示しています。

要約(オリジナル)

Classical multi-agent reinforcement learning (MARL) assumes risk neutrality and complete objectivity for agents. However, in settings where agents need to consider or model human economic or social preferences, a notion of risk must be incorporated into the RL optimization problem. This will be of greater importance in MARL where other human or non-human agents are involved, possibly with their own risk-sensitive policies. In this work, we consider risk-sensitive and non-cooperative MARL with cumulative prospect theory (CPT), a non-convex risk measure and a generalization of coherent measures of risk. CPT is capable of explaining loss aversion in humans and their tendency to overestimate/underestimate small/large probabilities. We propose a distributed sampling-based actor-critic (AC) algorithm with CPT risk for network aggregative Markov games (NAMGs), which we call Distributed Nested CPT-AC. Under a set of assumptions, we prove the convergence of the algorithm to a subjective notion of Markov perfect Nash equilibrium in NAMGs. The experimental results show that subjective CPT policies obtained by our algorithm can be different from the risk-neutral ones, and agents with a higher loss aversion are more inclined to socially isolate themselves in an NAMG.

arxiv情報

著者 Hafez Ghaemi,Hamed Kebriaei,Alireza Ramezani Moghaddam,Majid Nili Ahamdabadi
発行日 2024-02-08 18:43:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, I.2.11 パーマリンク