Stabilizing Unsupervised Environment Design with a Learned Adversary

要約

一般的に能力のあるエージェントをトレーニングする際の主な課題は、広範な一般化と環境変化に対する堅牢性を促進するトレーニング タスクの設計です。
この課題は、教師なし環境設計 (UED) の問題設定の動機付けとなり、これにより、教師エージェントによって提案されたタスクの適応的分散について学生エージェントがトレーニングされます。
UED の先駆的なアプローチは PAIRED です。これは強化学習 (RL) を使用して教師ポリシーをトレーニングし、タスクを最初から設計することで、エージェントの現在の能力に適応したタスクを直接生成できるようにします。
PAIRED は強力な理論的裏付けがあるにもかかわらず、実際のパフォーマンスを妨げるさまざまな課題に悩まされています。
したがって、最先端の手法は現在、新しいタスクの生成ではなく、キュレーションと突然変異に依存しています。
この研究では、PAIRED のいくつかの主要な欠点を調査し、それぞれの欠点に対する解決策を提案します。
その結果、PAIRED が最先端の手法と同等、またはそれを超えることを可能にし、部分的に観察される迷路ナビゲーション タスクや連続制御のカー レースなど、確立された困難な手続き的に生成されたいくつかの環境で堅牢なエージェントを生成することができます。
環境。
私たちは、この取り組みにより、困難な環境を直接生成する学習済みモデルに基づく UED 手法が改めて重視されるようになり、より自由な RL トレーニングが可能になり、その結果、より一般的なエージェントが可能になる可能性があると考えています。

要約(オリジナル)

A key challenge in training generally-capable agents is the design of training tasks that facilitate broad generalization and robustness to environment variations. This challenge motivates the problem setting of Unsupervised Environment Design (UED), whereby a student agent trains on an adaptive distribution of tasks proposed by a teacher agent. A pioneering approach for UED is PAIRED, which uses reinforcement learning (RL) to train a teacher policy to design tasks from scratch, making it possible to directly generate tasks that are adapted to the agent’s current capabilities. Despite its strong theoretical backing, PAIRED suffers from a variety of challenges that hinder its practical performance. Thus, state-of-the-art methods currently rely on curation and mutation rather than generation of new tasks. In this work, we investigate several key shortcomings of PAIRED and propose solutions for each shortcoming. As a result, we make it possible for PAIRED to match or exceed state-of-the-art methods, producing robust agents in several established challenging procedurally-generated environments, including a partially-observed maze navigation task and a continuous-control car racing environment. We believe this work motivates a renewed emphasis on UED methods based on learned models that directly generate challenging environments, potentially unlocking more open-ended RL training and, as a result, more general agents.

arxiv情報

著者 Ishita Mediratta,Minqi Jiang,Jack Parker-Holder,Michael Dennis,Eugene Vinitsky,Tim Rocktäschel
発行日 2023-08-22 14:38:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク