要約
最近、進化的強化学習はさまざまな分野で大きな注目を集めています。
進化的強化学習では、アクターの母集団を維持しながら、収集された経験を利用して、効率的な探索を通じて行動ポリシーを改善します。
ただし、遺伝的演算子のスケーラビリティが低いため、高次元ニューラル ネットワークの最適化効率が制限されます。
この問題に対処するために、この論文では新しい協調共進化強化学習 (CoERL) アルゴリズムを提案します。
CoERL は、協調的共進化をヒントに、定期的かつ適応的にポリシー最適化問題を複数の部分問題に分解し、各部分問題ごとにニューラル ネットワークの集団を進化させます。
CoERL は、遺伝的演算子を使用する代わりに、部分勾配を直接検索してポリシーを更新します。
部分勾配を使用してポリシーを更新すると、世代を超えて親と子の行動空間間の一貫性が維持されます。
住民によって収集された経験は、ポリシー全体の改善に使用され、サンプリング効率が向上します。
6 つのベンチマーク移動タスクに関する実験では、CoERL が 7 つの最先端のアルゴリズムとベースラインを上回るパフォーマンスを示しています。
アブレーション研究により、CoERL のコア成分の独自の貢献が検証されています。
要約(オリジナル)
Recently, evolutionary reinforcement learning has obtained much attention in various domains. Maintaining a population of actors, evolutionary reinforcement learning utilises the collected experiences to improve the behaviour policy through efficient exploration. However, the poor scalability of genetic operators limits the efficiency of optimising high-dimensional neural networks. To address this issue, this paper proposes a novel cooperative coevolutionary reinforcement learning (CoERL) algorithm. Inspired by cooperative coevolution, CoERL periodically and adaptively decomposes the policy optimisation problem into multiple subproblems and evolves a population of neural networks for each of the subproblems. Instead of using genetic operators, CoERL directly searches for partial gradients to update the policy. Updating policy with partial gradients maintains consistency between the behaviour spaces of parents and offspring across generations. The experiences collected by the population are then used to improve the entire policy, which enhances the sampling efficiency. Experiments on six benchmark locomotion tasks demonstrate that CoERL outperforms seven state-of-the-art algorithms and baselines. Ablation study verifies the unique contribution of CoERL’s core ingredients.
arxiv情報
著者 | Chengpeng Hu,Jialin Liu,Xin Yao |
発行日 | 2024-04-29 13:52:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google