Discovering General Reinforcement Learning Algorithms with Adversarial Environment Design

要約

過去 10 年間、人間の研究者が手動で設計したアルゴリズムに基づいて、深層強化学習 (RL) が大幅に進歩しました。
最近、幅広い RL タスクで適切に実行できるアルゴリズムを発見することを期待して、更新ルールをメタ学習することが可能であることが示されました。
Learned Policy Gradient (LPG) などのアルゴリズムによる初期結果は素晴らしいものでしたが、これらのアルゴリズムを目に見えない環境に適用すると、一般化のギャップが残ります。
この研究では、メタトレーニング分布の特性がこれらのアルゴリズムの汎化パフォーマンスにどのような影響を与えるかを調査します。
この分析に動機付けられ、教師なし環境設計 (UED) からのアイデアに基づいて、私たちは、新しい後悔の近似に加えて、メタ学習オプティマイザーの後悔を最大化するカリキュラムを自動的に生成するための新しいアプローチを提案します。これをアルゴリズム的後悔と名付けます。
(AR)。
その結果が、私たちの手法である環境設計経由で得られる一般的な RL オプティマイザー (GROOVE) です。
一連の実験では、GROOVE が LPG よりも優れた一般化を達成していることを示し、UED のベースライン メトリクスに対して AR を評価し、AR がこの設定における環境設計の重要なコンポーネントであることを特定しました。
私たちは、このアプローチが、現実世界の幅広い環境を解決できる、真に汎用的な RL アルゴリズムの発見に向けた一歩であると信じています。

要約(オリジナル)

The past decade has seen vast progress in deep reinforcement learning (RL) on the back of algorithms manually designed by human researchers. Recently, it has been shown that it is possible to meta-learn update rules, with the hope of discovering algorithms that can perform well on a wide range of RL tasks. Despite impressive initial results from algorithms such as Learned Policy Gradient (LPG), there remains a generalization gap when these algorithms are applied to unseen environments. In this work, we examine how characteristics of the meta-training distribution impact the generalization performance of these algorithms. Motivated by this analysis and building on ideas from Unsupervised Environment Design (UED), we propose a novel approach for automatically generating curricula to maximize the regret of a meta-learned optimizer, in addition to a novel approximation of regret, which we name algorithmic regret (AR). The result is our method, General RL Optimizers Obtained Via Environment Design (GROOVE). In a series of experiments, we show that GROOVE achieves superior generalization to LPG, and evaluate AR against baseline metrics from UED, identifying it as a critical component of environment design in this setting. We believe this approach is a step towards the discovery of truly general RL algorithms, capable of solving a wide range of real-world environments.

arxiv情報

著者 Matthew Thomas Jackson,Minqi Jiang,Jack Parker-Holder,Risto Vuorio,Chris Lu,Gregory Farquhar,Shimon Whiteson,Jakob Nicolaus Foerster
発行日 2023-10-04 12:52:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク