Convex Markov Games: A Framework for Creativity, Imitation, Fairness, and Safety in Multiagent Learning

要約

行動の多様性、専門家の模倣、公平性、安全性の目標などにより、時間の経過とともに相加的に分解されない、逐次的な意思決定領域における選好が生じます。
占有測度よりも一般的な凸の優先順位を許可する凸マルコフ ゲームのクラスを導入します。
無限の時間軸とマルコフ ゲームより厳密に高い一般性にもかかわらず、純粋な戦略ナッシュ均衡は存在します。
さらに、利用可能性の上限で勾配降下法を実行することにより、経験的に均衡を近似することができます。
私たちの実験は、古典的な反復正規形ゲームに対する新しい解決策を明らかにし、反復非対称調整ゲームで公平な解決策を見つけ、ロボット倉庫環境での長期的な安全な動作を優先します。
囚人のジレンマでは、私たちのアルゴリズムは一時的な模倣を利用して、観察された人間のプレイからわずかに逸脱するポリシープロファイルを見つけますが、プレイヤーごとの有用性が高く、悪用されにくいものでもあります。

要約(オリジナル)

Behavioral diversity, expert imitation, fairness, safety goals and others give rise to preferences in sequential decision making domains that do not decompose additively across time. We introduce the class of convex Markov games that allow general convex preferences over occupancy measures. Despite infinite time horizon and strictly higher generality than Markov games, pure strategy Nash equilibria exist. Furthermore, equilibria can be approximated empirically by performing gradient descent on an upper bound of exploitability. Our experiments reveal novel solutions to classic repeated normal-form games, find fair solutions in a repeated asymmetric coordination game, and prioritize safe long-term behavior in a robot warehouse environment. In the prisoner’s dilemma, our algorithm leverages transient imitation to find a policy profile that deviates from observed human play only slightly, yet achieves higher per-player utility while also being three orders of magnitude less exploitable.

arxiv情報

著者 Ian Gemp,Andreas Haupt,Luke Marris,Siqi Liu,Georgios Piliouras
発行日 2025-01-16 16:42:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GT, cs.MA パーマリンク