Online Optimization of Curriculum Learning Schedules using Evolutionary Optimization

要約

私たちは、強化学習エージェントのトレーニング中に効果的なカリキュラムを自動的に生成するために、カリキュラム学習 (CL) とローリング ホライズン進化アルゴリズム (RHEA) を組み合わせた RHEA CL を提案します。
RHEA CL は、進化的アルゴリズムを使用してカリキュラムの母集団を最適化し、次のトレーニング エポックの開始点として最もパフォーマンスの高いカリキュラムを選択します。
パフォーマンス評価は、すべての環境でカリキュラムの各ステップの後に実施されます。
Minigrid フレームワーク内の \textit{DoorKey} 環境と \textit{DynamicObstacles} 環境でアルゴリズムを評価します。
特に初期段階では適応性と一貫した改善を示し、その後は他のカリキュラム学習者を上回る安定したパフォーマンスに達します。
他のカリキュラム スケジュールと比較して、RHEA CL は、トレーニング中の追加評価を犠牲にして、最終的な強化学習 (RL) エージェントのパフォーマンス向上をもたらすことが示されています。

要約(オリジナル)

We propose RHEA CL, which combines Curriculum Learning (CL) with Rolling Horizon Evolutionary Algorithms (RHEA) to automatically produce effective curricula during the training of a reinforcement learning agent. RHEA CL optimizes a population of curricula, using an evolutionary algorithm, and selects the best-performing curriculum as the starting point for the next training epoch. Performance evaluations are conducted after every curriculum step in all environments. We evaluate the algorithm on the \textit{DoorKey} and \textit{DynamicObstacles} environments within the Minigrid framework. It demonstrates adaptability and consistent improvement, particularly in the early stages, while reaching a stable performance later that is capable of outperforming other curriculum learners. In comparison to other curriculum schedules, RHEA CL has been shown to yield performance improvements for the final Reinforcement learning (RL) agent at the cost of additional evaluation during training.

arxiv情報

著者 Mohit Jiwatode,Leon Schlecht,Alexander Dockhorn
発行日 2024-08-12 11:39:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク