要約
タイトル: 二人チームの零サムゲームにおけるNash均衡への収束
要約:
– 機械学習の現代的応用分野であるeスポーツにおける二人チームのゲームにおいて、多エージェント生成敵対ネットワークのより優れた表現力が、二人チームゲームにおける最適化に関する重要で見落とされている理論的な問題を提起している。
– 二人チーム零サムゲームは、プレイヤーが二つの競合するエージェントのセットに分かれ、各プレイヤーが相手のチームと同じユーティリティを持ち、自分たちのチームの逆のものを持つマルチプレイヤーゲームとして定義される。Nash 均衡 (NE) という解の概念に焦点を当てる。
– このクラスのゲームに対するNEの計算が、${\mathrm{CLS}}$の複雑性クラスで $\textit{hard}$ であることを示す。
– 完全情報フィードバックのゲームにおけるオンライン学習アルゴリズムの機能をさらに検討するために、単純ながらも重要な家族ゲームのベンチマークを提案する。これらのゲームは、関連するアルゴリズムの収束を証明するのに使用される特性を楽しむことはできない。特に、勾配降下-上昇、その楽観的なバリアント、楽観的な乗算重み更新、および追加勾配はNash均衡に(局所的にさえも)収束しません。
– しかし、制御理論の技術を活用した一次法を提案し、一定の条件の下でNash均衡に最後の挿入ローカル収束を実現することができると考えている。この提案手法は、一般的な最小最大最適化のためにも独立して興味のあるものであると信じています。
要約(オリジナル)
Contemporary applications of machine learning in two-team e-sports and the superior expressivity of multi-agent generative adversarial networks raise important and overlooked theoretical questions regarding optimization in two-team games. Formally, two-team zero-sum games are defined as multi-player games where players are split into two competing sets of agents, each experiencing a utility identical to that of their teammates and opposite to that of the opposing team. We focus on the solution concept of Nash equilibria (NE). We first show that computing NE for this class of games is $\textit{hard}$ for the complexity class ${\mathrm{CLS}}$. To further examine the capabilities of online learning algorithms in games with full-information feedback, we propose a benchmark of a simple — yet nontrivial — family of such games. These games do not enjoy the properties used to prove convergence for relevant algorithms. In particular, we use a dynamical systems perspective to demonstrate that gradient descent-ascent, its optimistic variant, optimistic multiplicative weights update, and extra gradient fail to converge (even locally) to a Nash equilibrium. On a brighter note, we propose a first-order method that leverages control theory techniques and under some conditions enjoys last-iterate local convergence to a Nash equilibrium. We also believe our proposed method is of independent interest for general min-max optimization.
arxiv情報
著者 | Fivos Kalogiannis,Ioannis Panageas,Emmanouil-Vasileios Vlatakis-Gkaragkounis |
発行日 | 2023-04-17 01:57:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI