要約
【タイトル】進化的強化学習:サーベイ
【要約】
– 強化学習は機械学習の一種であり、エージェントが環境との相互作用を通じて累積報酬を最大化するように訓練するアプローチである。
– DLとRLの統合によって、ボードゲーム、アーケードゲーム、ロボット制御などの難しいタスクに対する印象的な成果が最近得られている。
– これらの成功にもかかわらず、いくつかの重要な課題が残存しており、特に、過敏なハイパーパラメータによる脆弱な収束特性、長い時間ホライズンと疎な報酬に関する時間的クレジット割り当ての困難、特に連続探索空間シナリオにおける多様な探索の不足、マルチエージェント強化学習においてクレジット割り当ての困難および報酬の相反する目標。
– 進化的計算(EC)は、学習エージェントの集団を維持することによってこれらの制限に対処するために有望な性能を示している。
– 本論文はEvoRL(進化的強化学習)にECを統合するための最先端の方法に関する包括的な調査を紹介している。
– 我々は、ハイパーパラメータ最適化、ポリシー検索、探索、報酬シェイピング、メタ-RL、多目的RLの主要な研究分野に応じて、EvoRL方法を分類している。
– その後、効率的な方法、ベンチマーク、スケーラブルなプラットフォームに関する将来の研究方向について議論する。
– この調査は、EvoRLに興味を持つ研究者や実践者にとっての資源となり、将来の研究の重要な課題と機会を示している。
– この調査の支援を受けて、研究者や実践者は、EvoRLに最適化されたより効率的な方法や専用のベンチマークを開発することができ、この有望な横断的研究分野を更に進歩させることができる。
要約(オリジナル)
Reinforcement learning (RL) is a machine learning approach that trains agents to maximize cumulative rewards through interactions with environments. The integration of RL with deep learning has recently resulted in impressive achievements in a wide range of challenging tasks, including board games, arcade games, and robot control. Despite these successes, there remain several crucial challenges, including brittle convergence properties caused by sensitive hyperparameters, difficulties in temporal credit assignment with long time horizons and sparse rewards, a lack of diverse exploration, especially in continuous search space scenarios, difficulties in credit assignment in multi-agent reinforcement learning, and conflicting objectives for rewards. Evolutionary computation (EC), which maintains a population of learning agents, has demonstrated promising performance in addressing these limitations. This article presents a comprehensive survey of state-of-the-art methods for integrating EC into RL, referred to as evolutionary reinforcement learning (EvoRL). We categorize EvoRL methods according to key research fields in RL, including hyperparameter optimization, policy search, exploration, reward shaping, meta-RL, and multi-objective RL. We then discuss future research directions in terms of efficient methods, benchmarks, and scalable platforms. This survey serves as a resource for researchers and practitioners interested in the field of EvoRL, highlighting the important challenges and opportunities for future research. With the help of this survey, researchers and practitioners can develop more efficient methods and tailored benchmarks for EvoRL, further advancing this promising cross-disciplinary research field.
arxiv情報
著者 | Hui Bai,Ran Cheng,Yaochu Jin |
発行日 | 2023-04-12 01:56:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI