A Study of Plasticity Loss in On-Policy Deep Reinforcement Learning

要約

ディープニューラルネットワークを使った継続学習には、固定データセットや凸型継続学習とは異なる課題がある。そのような課題の1つが可塑性損失であり、オンライン方式で訓練されたニューラルネットワークは、新しいタスクに適合する能力が低下する。この問題は、教師あり学習と政策外の強化学習(RL)の両方で広く研究されており、多くの改善策が提案されている。しかし、オンポリシーの深層RLにおいては、可塑性の損失はあまり注目されていない。ここでは、on-policy deep RLにおける可塑性損失と様々な緩和方法について、広範な実験を行う。その結果、可塑性損失はこの領域におけるドメインシフトの下で広範に存在し、他の設定で可塑性損失を解決するために開発された多くの手法が失敗し、時には全く介入しない場合よりもパフォーマンスが低下することさえあることが示された。一方、グリッドワールドのタスクや、モンテズマの復讐やProcGenのような難易度の高い環境など、様々な状況において、一群の「再生」手法が一貫して可塑性の損失を軽減できることを発見した。

要約(オリジナル)

Continual learning with deep neural networks presents challenges distinct from both the fixed-dataset and convex continual learning regimes. One such challenge is plasticity loss, wherein a neural network trained in an online fashion displays a degraded ability to fit new tasks. This problem has been extensively studied in both supervised learning and off-policy reinforcement learning (RL), where a number of remedies have been proposed. Still, plasticity loss has received less attention in the on-policy deep RL setting. Here we perform an extensive set of experiments examining plasticity loss and a variety of mitigation methods in on-policy deep RL. We demonstrate that plasticity loss is pervasive under domain shift in this regime, and that a number of methods developed to resolve it in other settings fail, sometimes even performing worse than applying no intervention at all. In contrast, we find that a class of “regenerative” methods are able to consistently mitigate plasticity loss in a variety of contexts, including in gridworld tasks and more challenging environments like Montezuma’s Revenge and ProcGen.

arxiv情報

著者 Arthur Juliani,Jordan T. Ash
発行日 2024-11-01 16:47:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク