要約
身体化された意思決定領域へのエンドツーエンド学習手法の広範な適用は、対象領域を表す過剰なトレーニング データへの依存が依然としてボトルネックとなっています。
メタ強化学習 (meta-RL) アプローチは、標準的な強化学習 (RL) の目標であるゼロショット汎化の目的を放棄し、少数ショット適応を優先するため、より大きな汎化ギャップを埋める可能性を秘めています。
このメタレベルの適応動作を学習するには依然として大量のデータが必要ですが、現実世界の複雑さに近づく効率的な環境シミュレータの普及が進んでいます。
それでも、これらの複雑な領域に対して、十分に多様で多数のシミュレートされたトレーニング タスクを手作業で設計することは、法外な労力を要します。
この問題の解決策として提供されるドメイン ランダム化 (DR) と手続き型生成 (PG) では、シミュレーターが意味のあるタスクの多様性に直接変換される慎重に定義されたパラメーターを所有する必要がありますが、これは同様に法外な前提です。
この研究では、このような複雑でオープンエンドのシミュレーターで多様なトレーニング タスクを生成するための進化的なアプローチである DIVA を紹介します。
教師なし環境設計 (UED) 手法と同様に、DIVA は任意のパラメーター化に適用できますが、現実的に利用可能なドメインの知識をさらに組み込むことができるため、UED の柔軟性と汎用性、および DR によって活用される適切に設計されたシミュレーターに埋め込まれた教師あり構造を継承します。
そしてPG。
私たちの実証結果は、複雑なパラメータ化を克服し、適応エージェントの動作をうまくトレーニングする DIVA の独自の能力を示しており、先行文献の競合ベースラインをはるかに上回っています。
これらの発見は、DIVA が最初の控えめな構成要素であるこのような半教師あり環境設計 (SSED) アプローチの可能性を強調し、現実的なシミュレートされたドメインでのトレーニングを可能にし、より堅牢で有能な適応エージェントを生成します。
要約(オリジナル)
The wider application of end-to-end learning methods to embodied decision-making domains remains bottlenecked by their reliance on a superabundance of training data representative of the target domain. Meta-reinforcement learning (meta-RL) approaches abandon the aim of zero-shot generalization–the goal of standard reinforcement learning (RL)–in favor of few-shot adaptation, and thus hold promise for bridging larger generalization gaps. While learning this meta-level adaptive behavior still requires substantial data, efficient environment simulators approaching real-world complexity are growing in prevalence. Even so, hand-designing sufficiently diverse and numerous simulated training tasks for these complex domains is prohibitively labor-intensive. Domain randomization (DR) and procedural generation (PG), offered as solutions to this problem, require simulators to possess carefully-defined parameters which directly translate to meaningful task diversity–a similarly prohibitive assumption. In this work, we present DIVA, an evolutionary approach for generating diverse training tasks in such complex, open-ended simulators. Like unsupervised environment design (UED) methods, DIVA can be applied to arbitrary parameterizations, but can additionally incorporate realistically-available domain knowledge–thus inheriting the flexibility and generality of UED, and the supervised structure embedded in well-designed simulators exploited by DR and PG. Our empirical results showcase DIVA’s unique ability to overcome complex parameterizations and successfully train adaptive agent behavior, far outperforming competitive baselines from prior literature. These findings highlight the potential of such semi-supervised environment design (SSED) approaches, of which DIVA is the first humble constituent, to enable training in realistic simulated domains, and produce more robust and capable adaptive agents.
arxiv情報
著者 | Robby Costales,Stefanos Nikolaidis |
発行日 | 2024-11-07 06:27:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google