RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization

要約

マルチエージェント システムは、環境の不確実性、エージェントのさまざまなポリシー、および部分的な可観測性によって特徴付けられ、重大なリスクをもたらします。
マルチエージェント強化学習 (MARL) のコンテキストでは、リスクに敏感な調整された分散型ポリシーを学習することは困難です。
リスクに敏感な MARL における調整要件を定式化するために、Individual-Global-Max (IGM) および Distributional IGM (DIGM) 原則の一般化として、Risk-sensitive Individual-Global-Max (RIGM) 原則を導入します。
この原則では、各エージェントのリスクに敏感なアクションの選択の集合が、中央ポリシーのリスクに敏感なアクションの選択と同等である必要があります。
現在の MARL 値因数分解方法は、バリュー・アット・リスク (VaR) 指標や歪んだリスク測定などの一般的なリスク指標の RIGM 原則を満たしていません。
したがって、この制限に対処するために、エージェントごとの収益分配ユーティリティの加重分位混合としてその分位数をモデル化することにより、共同収益分配をモデル化する RiskQ を提案します。
RiskQ は、VaR および歪んだリスク指標に関する RIGM 原則を満たしています。
私たちは、RiskQ が広範な実験を通じて有望なパフォーマンスを得ることができることを示します。
RiskQ のソース コードは https://github.com/xmu-rl-3dv/RiskQ で入手できます。

要約(オリジナル)

Multi-agent systems are characterized by environmental uncertainty, varying policies of agents, and partial observability, which result in significant risks. In the context of Multi-Agent Reinforcement Learning (MARL), learning coordinated and decentralized policies that are sensitive to risk is challenging. To formulate the coordination requirements in risk-sensitive MARL, we introduce the Risk-sensitive Individual-Global-Max (RIGM) principle as a generalization of the Individual-Global-Max (IGM) and Distributional IGM (DIGM) principles. This principle requires that the collection of risk-sensitive action selections of each agent should be equivalent to the risk-sensitive action selection of the central policy. Current MARL value factorization methods do not satisfy the RIGM principle for common risk metrics such as the Value at Risk (VaR) metric or distorted risk measurements. Therefore, we propose RiskQ to address this limitation, which models the joint return distribution by modeling quantiles of it as weighted quantile mixtures of per-agent return distribution utilities. RiskQ satisfies the RIGM principle for the VaR and distorted risk metrics. We show that RiskQ can obtain promising performance through extensive experiments. The source code of RiskQ is available in https://github.com/xmu-rl-3dv/RiskQ.

arxiv情報

著者 Siqi Shen,Chennan Ma,Chao Li,Weiquan Liu,Yongquan Fu,Songzhu Mei,Xinwang Liu,Cheng Wang
発行日 2024-03-21 12:36:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク