要約
マルチエージェント システム (MAS) のエージェントが安全であるためには、他のエージェントのアクションによってもたらされるリスクを考慮する必要があります。
ただし、ゲーム理論 (GT) の支配的なパラダイムでは、エージェントは他のエージェントからのリスクの影響を受けず、期待される効用を最大化するように努力するだけであると想定されています。
たとえば、人間と AI のハイブリッド運転システムでは、自動車事故による報酬の大きな偏差を制限する必要があります。
ゲーム理論にはリスク回避を考慮した均衡概念がありますが、それらは、エージェントが他のエージェントの行動によって引き起こされる不確実性に関してリスク中立であると仮定するか、存在することが保証されていません。
他のエージェントの戦略を説明する報酬の潜在的な分散を最小限に抑えるソリューションを常に生成する、新しい GT ベースのリスク回避均衡 (RAE) を導入します。
理論的および経験的に、RAE はナッシュ均衡 (NE) と多くの特性を共有し、収束特性を確立し、特定のケースではリスク優勢の NE に一般化することを示します。
大規模な問題に取り組むために、RAE を PSRO マルチエージェント強化学習 (MARL) フレームワークに拡張します。
リスクの高い結果を伴うマトリックス ゲームでの RAE の最小報酬分散の利点を経験的に示します。
MARL 実験の結果は、RAE が信頼のジレンマ ゲームにおけるリスク優勢の NE に一般化され、自動運転設定でクラッシュのインスタンスが最高パフォーマンスのベースラインと比較して 7 分の 1 に減少することを示しています。
要約(オリジナル)
In order for agents in multi-agent systems (MAS) to be safe, they need to take into account the risks posed by the actions of other agents. However, the dominant paradigm in game theory (GT) assumes that agents are not affected by risk from other agents and only strive to maximise their expected utility. For example, in hybrid human-AI driving systems, it is necessary to limit large deviations in reward resulting from car crashes. Although there are equilibrium concepts in game theory that take into account risk aversion, they either assume that agents are risk-neutral with respect to the uncertainty caused by the actions of other agents, or they are not guaranteed to exist. We introduce a new GT-based Risk-Averse Equilibrium (RAE) that always produces a solution that minimises the potential variance in reward accounting for the strategy of other agents. Theoretically and empirically, we show RAE shares many properties with a Nash Equilibrium (NE), establishing convergence properties and generalising to risk-dominant NE in certain cases. To tackle large-scale problems, we extend RAE to the PSRO multi-agent reinforcement learning (MARL) framework. We empirically demonstrate the minimum reward variance benefits of RAE in matrix games with high-risk outcomes. Results on MARL experiments show RAE generalises to risk-dominant NE in a trust dilemma game and that it reduces instances of crashing by 7x in an autonomous driving setting versus the best performing baseline.
arxiv情報
著者 | Oliver Slumbers,David Henry Mguni,Stephen Marcus McAleer,Stefano B. Blumberg,Jun Wang,Yaodong Yang |
発行日 | 2023-02-28 17:53:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google