Ancestral Reinforcement Learning: Unifying Zeroth-Order Optimization and Genetic Algorithms for Reinforcement Learning

要約

強化学習(RL)は、未知の環境内での相互作用を通じて最適な行動戦略を発見するための基本的な枠組みを提供する。最近の進歩により、様々な方法でエージェントの集団を利用することで、RLの性能と適用性が大幅に向上することが示されている。ゼロ次最適化(ZOO)は、エージェント集団を活用して目的関数の勾配を推定することで、非分散性のシナリオでもロバストなポリシーの洗練を可能にする。もう一つの応用として、遺伝的アルゴリズム(GA)は、エージェント集団における政策の多様性の突然変異的生成と選択による洗練によって、政策ランドスケープの探索を促進する。自然な疑問は、エージェント集団が持ちうる2つの世界のうち最良のものを持つことができるかということである。本研究では、ZOOの頑健な勾配推定とGAの探索力を相乗的に組み合わせた祖先強化学習(ARL)を提案する。ARLのキーとなる考え方は、GAと同様に現在の母集団におけるポリシーの多様性を維持しつつ、母集団内の各エージェントがその祖先、すなわち過去の祖先集団の履歴を利用することで勾配を推論するというものである。また、ARLにおける母集団探索は、目的関数のKL正則化を暗黙的に誘導し、探索を強化することを理論的に明らかにする。本成果により、RLにおけるポピュレーショナルアルゴリズムの適用範囲が広がる。

要約(オリジナル)

Reinforcement Learning (RL) offers a fundamental framework for discovering optimal action strategies through interactions within unknown environments. Recent advancement have shown that the performance and applicability of RL can significantly be enhanced by exploiting a population of agents in various ways. Zeroth-Order Optimization (ZOO) leverages an agent population to estimate the gradient of the objective function, enabling robust policy refinement even in non-differentiable scenarios. As another application, Genetic Algorithms (GA) boosts the exploration of policy landscapes by mutational generation of policy diversity in an agent population and its refinement by selection. A natural question is whether we can have the best of two worlds that the agent population can have. In this work, we propose Ancestral Reinforcement Learning (ARL), which synergistically combines the robust gradient estimation of ZOO with the exploratory power of GA. The key idea in ARL is that each agent within a population infers gradient by exploiting the history of its ancestors, i.e., the ancestor population in the past, while maintaining the diversity of policies in the current population as in GA. We also theoretically reveal that the populational search in ARL implicitly induces the KL-regularization of the objective function, resulting in the enhanced exploration. Our results extend the applicability of populational algorithms for RL.

arxiv情報

著者 So Nakashima,Tetsuya J. Kobayashi
発行日 2024-09-02 16:19:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク