A Study of Plasticity Loss in On-Policy Deep Reinforcement Learning

要約

ディープ ニューラル ネットワークを使用した継続学習には、固定データセットと凸型の継続学習体制の両方とは異なる課題が存在します。
そのような課題の 1 つは可塑性損失です。オンライン形式でトレーニングされたニューラル ネットワークは、新しいタスクに適合する能力が低下します。
この問題は、教師あり学習とオフポリシー強化学習 (RL) の両方で広く研究されており、多くの解決策が提案されています。
それでも、オンポリシーのディープ RL 設定では、可塑性損失はあまり注目されていません。
ここでは、オンポリシーディープ RL における可塑性損失とさまざまな緩和方法を調べる一連の広範な実験を実行します。
我々は、この領域では可塑性損失が領域シフト下で蔓延していること、および他の設定で可塑性損失を解決するために開発された多くの方法が失敗し、場合によってはまったく介入を行わない場合よりもパフォーマンスが悪化することさえあることを実証します。
対照的に、あるクラスの「再生」手法は、グリッドワールドのタスクや、Montezuma’sリベンジやProcGenなどのより困難な環境を含む、さまざまな状況で可塑性の損失を一貫して軽減できることがわかりました。

要約(オリジナル)

Continual learning with deep neural networks presents challenges distinct from both the fixed-dataset and convex continual learning regimes. One such challenge is plasticity loss, wherein a neural network trained in an online fashion displays a degraded ability to fit new tasks. This problem has been extensively studied in both supervised learning and off-policy reinforcement learning (RL), where a number of remedies have been proposed. Still, plasticity loss has received less attention in the on-policy deep RL setting. Here we perform an extensive set of experiments examining plasticity loss and a variety of mitigation methods in on-policy deep RL. We demonstrate that plasticity loss is pervasive under domain shift in this regime, and that a number of methods developed to resolve it in other settings fail, sometimes even resulting in performance that is worse than performing no intervention at all. In contrast, we find that a class of “regenerative” methods are able to consistently mitigate plasticity loss in a variety of contexts, including in gridworld tasks and more challenging environments like Montezuma’s Revenge and ProcGen.

arxiv情報

著者 Arthur Juliani,Jordan T. Ash
発行日 2024-05-29 14:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク