要約
強化学習 (RL) は、環境との相互作用を通じて累積報酬を最大化するようにエージェントをトレーニングする機械学習アプローチです。
強化学習と深層学習の統合により、最近では、ボード ゲーム、アーケード ゲーム、ロボット制御など、さまざまな困難なタスクで印象的な成果が得られています。
これらの成功にもかかわらず、機密性の高いハイパーパラメータによって引き起こされる脆弱な収束特性、長い時間範囲とまばらな報酬による一時的なクレジット割り当ての難しさ、特に連続的な検索空間シナリオにおける多様な探索の欠如、クレジット割り当ての難しさなど、いくつかの重要な課題が残っています。
マルチエージェント強化学習、および報酬の相反する目的。
学習エージェントの集団を維持する進化的計算 (EC) は、これらの制限に対処する上で有望なパフォーマンスを示しています。
この記事では、進化的強化学習 (EvoRL) と呼ばれる、EC を RL に統合するための最先端の方法の包括的な調査を紹介します。
ハイパーパラメーター最適化、ポリシー検索、探索、報酬形成、メタ RL、多目的 RL など、RL の主要な研究分野に従って EvoRL メソッドを分類します。
次に、効率的な方法、ベンチマーク、およびスケーラブルなプラットフォームの観点から、将来の研究の方向性について説明します。
この調査は、EvoRL の分野に関心のある研究者や実践者のためのリソースとして機能し、将来の研究の重要な課題と機会を強調しています。
この調査の助けを借りて、研究者と実践者は、EvoRL のより効率的な方法と調整されたベンチマークを開発し、この有望な学際的な研究分野をさらに前進させることができます。
要約(オリジナル)
Reinforcement learning (RL) is a machine learning approach that trains agents to maximize cumulative rewards through interactions with environments. The integration of RL with deep learning has recently resulted in impressive achievements in a wide range of challenging tasks, including board games, arcade games, and robot control. Despite these successes, there remain several crucial challenges, including brittle convergence properties caused by sensitive hyperparameters, difficulties in temporal credit assignment with long time horizons and sparse rewards, a lack of diverse exploration, especially in continuous search space scenarios, difficulties in credit assignment in multi-agent reinforcement learning, and conflicting objectives for rewards. Evolutionary computation (EC), which maintains a population of learning agents, has demonstrated promising performance in addressing these limitations. This article presents a comprehensive survey of state-of-the-art methods for integrating EC into RL, referred to as evolutionary reinforcement learning (EvoRL). We categorize EvoRL methods according to key research fields in RL, including hyperparameter optimization, policy search, exploration, reward shaping, meta-RL, and multi-objective RL. We then discuss future research directions in terms of efficient methods, benchmarks, and scalable platforms. This survey serves as a resource for researchers and practitioners interested in the field of EvoRL, highlighting the important challenges and opportunities for future research. With the help of this survey, researchers and practitioners can develop more efficient methods and tailored benchmarks for EvoRL, further advancing this promising cross-disciplinary research field.
arxiv情報
著者 | Hui Bai,Ran Cheng,Yaochu Jin |
発行日 | 2023-03-10 07:21:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google