Refining Minimax Regret for Unsupervised Environment Design

要約

教師なし環境設計では、強化学習エージェントは、敵対者によって生成された、何らかの目的を最大化する環境構成 (レベル) でトレーニングされます。
リグレットは、理論的には望ましい堅牢性が保証されたミニマックス リグレット (MMR) ポリシーをもたらす一般的に使用される目標です。
特に、エージェントの最大の後悔には限界があります。
ただし、エージェントがすべてのレベルでこの後悔の限界に達すると、敵対者は後悔をさらに減らすことができないレベルのみをサンプリングします。
これらの後悔を最大化するレベルの外でパフォーマンスを改善できる可能性はありますが、学習は停滞します。
この研究では、この制限を克服するミニマックス リグレス目標の改良版であるベイジアン レベルパーフェクト MMR (BLP) を導入します。
我々は、この目的を解決すると MMR ポリシーのサブセットが得られること、および BLP ポリシーがすべてのレベルにわたって完全ベイジアン ポリシーと一貫して機能することを正式に示します。
さらに、収束時に BLP ポリシーを生成するアルゴリズム ReMiDi を導入します。
私たちは、ミニマックス後悔の敵からのレベルでトレーニングすると学習が時期尚早に停滞する原因となるが、ReMiDi は学習を続けることを経験的に示しています。

要約(オリジナル)

In unsupervised environment design, reinforcement learning agents are trained on environment configurations (levels) generated by an adversary that maximises some objective. Regret is a commonly used objective that theoretically results in a minimax regret (MMR) policy with desirable robustness guarantees; in particular, the agent’s maximum regret is bounded. However, once the agent reaches this regret bound on all levels, the adversary will only sample levels where regret cannot be further reduced. Although there are possible performance improvements to be made outside of these regret-maximising levels, learning stagnates. In this work, we introduce Bayesian level-perfect MMR (BLP), a refinement of the minimax regret objective that overcomes this limitation. We formally show that solving for this objective results in a subset of MMR policies, and that BLP policies act consistently with a Perfect Bayesian policy over all levels. We further introduce an algorithm, ReMiDi, that results in a BLP policy at convergence. We empirically demonstrate that training on levels from a minimax regret adversary causes learning to prematurely stagnate, but that ReMiDi continues learning.

arxiv情報

著者 Michael Beukman,Samuel Coward,Michael Matthews,Mattie Fellows,Minqi Jiang,Michael Dennis,Jakob Foerster
発行日 2024-02-19 16:51:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク