Evolutionary Strategy Guided Reinforcement Learning via MultiBuffer Communication

要約

進化的アルゴリズムと深層強化学習はどちらも、さまざまな領域にわたる制御問題の解決に成功しています。
最近、両方のアプローチの長所を活用し、弱点を軽減することを目的として、これら 2 つの方法を組み合わせたアルゴリズムが提案されています。
この論文では、進化戦略と呼ばれる特定の進化アルゴリズム ファミリとオフポリシーの深層強化学習アルゴリズム TD3 を組み合わせた、新しい進化強化学習モデルを紹介します。
このフレームワークは、単一の共有リプレイ バッファーを使用する代わりに、マルチバッファー システムを利用します。
マルチバッファ システムにより、進化的戦略は、望ましいポリシー動作の例の数を制限し、ディープの可能性に悪影響を与えるパフォーマンスの悪い軌道でリプレイ バッファが過密になるリスクを負うことなく、ポリシーの検索空間内を自由に検索できます。
共有フレームワーク内での強化学習。
提案されたアルゴリズムは、MuJoCo 制御タスク上で現在の進化的強化学習アルゴリズムと競合するパフォーマンスを示し、テストされた 4 つの環境のうち 3 つでよく知られた最先端の CEM-RL を上回りました。

要約(オリジナル)

Evolutionary Algorithms and Deep Reinforcement Learning have both successfully solved control problems across a variety of domains. Recently, algorithms have been proposed which combine these two methods, aiming to leverage the strengths and mitigate the weaknesses of both approaches. In this paper we introduce a new Evolutionary Reinforcement Learning model which combines a particular family of Evolutionary algorithm called Evolutionary Strategies with the off-policy Deep Reinforcement Learning algorithm TD3. The framework utilises a multi-buffer system instead of using a single shared replay buffer. The multi-buffer system allows for the Evolutionary Strategy to search freely in the search space of policies, without running the risk of overpopulating the replay buffer with poorly performing trajectories which limit the number of desirable policy behaviour examples thus negatively impacting the potential of the Deep Reinforcement Learning within the shared framework. The proposed algorithm is demonstrated to perform competitively with current Evolutionary Reinforcement Learning algorithms on MuJoCo control tasks, outperforming the well known state-of-the-art CEM-RL on 3 of the 4 environments tested.

arxiv情報

著者 Adam Callaghan,Karl Mason,Patrick Mannion
発行日 2023-06-20 13:41:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE パーマリンク