Plasticity Loss in Deep Reinforcement Learning: A Survey

要約

人間の脳の神経可塑性と同様に、ディープ ニューラル ネットワークの可塑性により、新しいデータへの迅速な適応が可能になります。
このため、可塑性は深層強化学習 (RL) エージェントにとって特に重要になります。可塑性が失われると、学習プロセスの必然的な結果であるデータ分布の変化を考慮してポリシーを改善できないため、エージェントのパフォーマンスは必然的に頭打ちになります。
したがって、優れたパフォーマンスとサンプル効率を備えたエージェントを開発できるかどうかは、トレーニング中に可塑性を維持できる能力にかかっています。
さらに、可塑性の喪失は、トレーニングの不安定性、スケーリングの失敗、過大評価バイアス、不十分な探索など、深層学習を悩ませる他の多くの問題に関連している可能性があります。
この調査では、深層強化学習の学者や実践者に可塑性損失に関する新たな研究の概要を提供することを目的としています。
まず、最近の研究に基づいて塑性損失の統一定義を提案し、それを文献の定義と関連付け、塑性損失を測定するための指標について議論します。
次に、現在採用されている緩和戦略を検討する前に、可塑性損失の考えられる多数の原因を分類して検討します。
私たちの分類法は、この分野の現状を体系的に概観した初めての方法です。
最後に、より広範な評価の必要性など、文献内で一般的な問題について議論し、エージェントの神経活動や行動をより深く理解するなど、将来の研究への推奨事項を提供します。

要約(オリジナル)

Akin to neuroplasticity in human brains, the plasticity of deep neural networks enables their quick adaption to new data. This makes plasticity particularly crucial for deep Reinforcement Learning (RL) agents: Once plasticity is lost, an agent’s performance will inevitably plateau because it cannot improve its policy to account for changes in the data distribution, which are a necessary consequence of its learning process. Thus, developing well-performing and sample-efficient agents hinges on their ability to remain plastic during training. Furthermore, the loss of plasticity can be connected to many other issues plaguing deep RL, such as training instabilities, scaling failures, overestimation bias, and insufficient exploration. With this survey, we aim to provide an overview of the emerging research on plasticity loss for academics and practitioners of deep reinforcement learning. First, we propose a unified definition of plasticity loss based on recent works, relate it to definitions from the literature, and discuss metrics for measuring plasticity loss. Then, we categorize and discuss numerous possible causes of plasticity loss before reviewing currently employed mitigation strategies. Our taxonomy is the first systematic overview of the current state of the field. Lastly, we discuss prevalent issues within the literature, such as a necessity for broader evaluation, and provide recommendations for future research, like gaining a better understanding of an agent’s neural activity and behavior.

arxiv情報

著者 Timo Klein,Lukas Miklautz,Kevin Sidak,Claudia Plant,Sebastian Tschiatschek
発行日 2024-11-07 16:13:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク