要約
適切な環境分布の設計に関する最近の研究は、効果的で一般的に有能なエージェントの訓練に有望であることを示している。その成功の一因は、エージェントの能力のフロンティアに環境インスタンス(またはレベル)を生成する適応的カリキュラム学習の形態にある。しかし、このような環境設計フレームワークは、しばしば困難な設計空間において効果的なレベルを見つけるのに苦労し、環境とのコストのかかる相互作用を必要とする。本論文では、教師なし環境設計(UED)フレームワークに多様性を導入することを目的とする。具体的には、与えられたレベルを代表する観測/非表示の状態を識別するためのタスクにとらわれない方法を提案する。この手法の結果は、2つのレベル間の多様性を特徴付けるために利用される。さらに、サンプリング効率を向上させるために、環境生成器が学習エージェントにとって非常に有益な環境を自動的に生成することを可能にするセルフプレイ技術を取り入れる。定量的には、我々のアプローチであるDiversity-induced Environment Design via Self-Play(DivSP)は、既存の方法と比較して説得力のある性能を示す。
要約(オリジナル)
Recent work on designing an appropriate distribution of environments has shown promise for training effective generally capable agents. Its success is partly because of a form of adaptive curriculum learning that generates environment instances (or levels) at the frontier of the agent’s capabilities. However, such an environment design framework often struggles to find effective levels in challenging design spaces and requires costly interactions with the environment. In this paper, we aim to introduce diversity in the Unsupervised Environment Design (UED) framework. Specifically, we propose a task-agnostic method to identify observed/hidden states that are representative of a given level. The outcome of this method is then utilized to characterize the diversity between two levels, which as we show can be crucial to effective performance. In addition, to improve sampling efficiency, we incorporate the self-play technique that allows the environment generator to automatically generate environments that are of great benefit to the training agent. Quantitatively, our approach, Diversity-induced Environment Design via Self-Play (DivSP), shows compelling performance over existing methods.
arxiv情報
著者 | Dexun Li,Wenjun Li,Pradeep Varakantham |
発行日 | 2023-07-02 09:19:55+00:00 |
arxivサイト | arxiv_id(pdf) |