Solving Deep Reinforcement Learning Tasks with Evolution Strategies and Linear Policy Networks

要約

深層強化学習手法は、Atari ゲームやロボットタスクなどの困難な問題に対する効果的なポリシーを学習できますが、アルゴリズムは複雑で、トレーニング時間が長くなることがよくあります。
この研究では、勾配ベースの深層強化学習手法と比較して、進化戦略がどのように実行されるかを調査します。
私たちは進化戦略を使用して、直接ポリシー検索を実行し、ニューラル進化を通じてニューラル ネットワークの重みを最適化します。
私たちは、ディープ ポリシー ネットワークと、近接ポリシー最適化などの 3 つの勾配ベースの手法について、観察からアクションまでの単一の線形層で構成されるネットワークの両方をベンチマークします。
これらの手法は、すべて線形ポリシー ネットワークを使用する 3 つの古典的な進化戦略と拡張ランダム検索に対して評価されます。
私たちの結果は、はるかに大規模なネットワークを使用してのみ成功するポリシーを見つけることができる深層強化学習手法とは異なり、Evolution Strategies が多くの強化学習ベンチマーク タスクに対して効果的な線形ポリシーを見つけることができることを明らかにし、現在のベンチマークが以前に想定されていたよりも解決しやすいことを示唆しています。
興味深いことに、Evolution Strategies は、より複雑なタスクに対して勾配ベースの深層強化学習アルゴリズムと同等の結果も達成します。
さらに、Evolution Strategies はゲームのメモリ状態に直接アクセスすることで、Deep Q-Learning で見つかったポリシーよりも優れた、Atari で成功したポリシーを見つけることができることがわかりました。
また、Evolution Strategies はほとんどのベンチマークで拡張ランダム検索を上回っており、線形ポリシー ネットワークのトレーニングにおいて優れたサンプル効率と堅牢性を示しています。

要約(オリジナル)

Although deep reinforcement learning methods can learn effective policies for challenging problems such as Atari games and robotics tasks, algorithms are complex, and training times are often long. This study investigates how Evolution Strategies perform compared to gradient-based deep reinforcement learning methods. We use Evolution Strategies to optimize the weights of a neural network via neuroevolution, performing direct policy search. We benchmark both deep policy networks and networks consisting of a single linear layer from observations to actions for three gradient-based methods, such as Proximal Policy Optimization. These methods are evaluated against three classical Evolution Strategies and Augmented Random Search, which all use linear policy networks. Our results reveal that Evolution Strategies can find effective linear policies for many reinforcement learning benchmark tasks, unlike deep reinforcement learning methods that can only find successful policies using much larger networks, suggesting that current benchmarks are easier to solve than previously assumed. Interestingly, Evolution Strategies also achieve results comparable to gradient-based deep reinforcement learning algorithms for higher-complexity tasks. Furthermore, we find that by directly accessing the memory state of the game, Evolution Strategies can find successful policies in Atari that outperform the policies found by Deep Q-Learning. Evolution Strategies also outperform Augmented Random Search in most benchmarks, demonstrating superior sample efficiency and robustness in training linear policy networks.

arxiv情報

著者 Annie Wong,Jacob de Nobel,Thomas Bäck,Aske Plaat,Anna V. Kononova
発行日 2024-07-24 17:15:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク