要約
総和ゲームでの学習では、全体として最適とはいえない結果が得られることがよくあります。
これに対処するために、対戦相手シェーピング (OS) 手法は他のエージェントの学習プロセスを積極的に導き、経験的に多くの設定で個人およびグループのパフォーマンスの向上につながります。
初期の OS 手法は高次導関数を使用して共同プレイヤーの学習を形成するため、複数の学習ステップを形成するのには適していません。
後続の研究である Model-free Opponent Shaping (M-FOS) では、OS の問題をメタゲームとして再構成することでこれらに対処しています。
初期の OS の手法とは対照的に、M-FOS フレームワークの理論的な理解はほとんどありません。
M-FOS の理論的保証を提供することは困難です。その理由は、A) メタ強化学習の理論的なサンプル複雑さの限界に関する文献がほとんどないこと、B) M-FOS は連続状態およびアクション空間で動作するため、理論分析が困難であることです。
この研究では、理論分析により適した M-FOS の表形式バージョンである R-FOS を紹介します。
R-FOS は、連続メタゲーム MDP を表形式の MDP に離散化します。
この離散化 MDP 内で、MDP の PAC 境界を導出するために最もよく使用される $R_{max}$ アルゴリズムを R-FOS アルゴリズムのメタ学習器として採用します。
内部状態とアクション空間のカーディナリティとエージェントの数が指数関数的なサンプル複雑さの限界を導き出します。
私たちの限界は、一定の要素は別として、R-FOS エージェントによって学習された最終ポリシーが最適なポリシーに近いことを高い確率で保証します。
最後に、R-FOS のサンプルの複雑さが状態アクション空間のサイズに応じてどのようにスケールされるかを調査します。
スケーリングに関する理論的な結果は、Matching Pennies 環境で経験的に裏付けられています。
要約(オリジナル)
Learning in general-sum games often yields collectively sub-optimal results. Addressing this, opponent shaping (OS) methods actively guide the learning processes of other agents, empirically leading to improved individual and group performances in many settings. Early OS methods use higher-order derivatives to shape the learning of co-players, making them unsuitable for shaping multiple learning steps. Follow-up work, Model-free Opponent Shaping (M-FOS), addresses these by reframing the OS problem as a meta-game. In contrast to early OS methods, there is little theoretical understanding of the M-FOS framework. Providing theoretical guarantees for M-FOS is hard because A) there is little literature on theoretical sample complexity bounds for meta-reinforcement learning B) M-FOS operates in continuous state and action spaces, so theoretical analysis is challenging. In this work, we present R-FOS, a tabular version of M-FOS that is more suitable for theoretical analysis. R-FOS discretises the continuous meta-game MDP into a tabular MDP. Within this discretised MDP, we adapt the $R_{max}$ algorithm, most prominently used to derive PAC-bounds for MDPs, as the meta-learner in the R-FOS algorithm. We derive a sample complexity bound that is exponential in the cardinality of the inner state and action space and the number of agents. Our bound guarantees that, with high probability, the final policy learned by an R-FOS agent is close to the optimal policy, apart from a constant factor. Finally, we investigate how R-FOS’s sample complexity scales in the size of state-action space. Our theoretical results on scaling are supported empirically in the Matching Pennies environment.
arxiv情報
著者 | Kitty Fung,Qizhen Zhang,Chris Lu,Jia Wan,Timon Willi,Jakob Foerster |
発行日 | 2024-02-08 16:17:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google