No Representation, No Trust: Connecting Representation, Collapse, and Trust Issues in PPO

要約

強化学習 (RL) には、トレーニング中にエージェントが観察する状態と報酬がその変化するポリシーに依存するため、本質的に非定常性が溢れています。
したがって、ディープ RL のネットワークは、新しい観測に適応し、新しいターゲットに適合できる必要があります。
しかし、これまでの研究では、非定常性の下で訓練されたネットワークは、可塑性の喪失と呼ばれる学習を継続できなくなり、最終的にはパフォーマンスが低下することが観察されています。
オフポリシーの深い値ベースの RL 手法の場合、この現象は、表現ランクの低下と、キャパシティ損失と呼ばれる、ランダムなターゲットに適合する能力と相関しています。
この相関関係は一般に、非定常下でのニューラル ネットワーク学習に起因すると考えられていますが、表現ダイナミクスとの関係は、ポリシー上のポリシー最適化手法では慎重に研究されていません。
この研究では、Atari および MuJoCo 環境での近接ポリシー最適化 (PPO) における表現ダイナミクスを実証的に研究し、PPO エージェントも機能ランクの劣化と容量損失の影響を受けることを明らかにしました。
私たちは、これがより強力な非定常性によって悪化し、最終的には批評家の演技に関係なく、俳優の演技が崩壊することを示します。
私たちは、なぜ PPO のような手法に特有の信頼領域が崩壊を緩和または防止できないのかを尋ね、表現の崩壊と信頼領域の劣化との間に、一方が他方を悪化させる関連性を見出します。
最後に、他の介入とともに、表現ダイナミクスを正規化することで PPO エージェントのパフォーマンス崩壊が軽減されることを示す新しい補助損失である近接特徴最適化 (PFO) を紹介します。

要約(オリジナル)

Reinforcement learning (RL) is inherently rife with non-stationarity since the states and rewards the agent observes during training depend on its changing policy. Therefore, networks in deep RL must be capable of adapting to new observations and fitting new targets. However, previous works have observed that networks trained under non-stationarity exhibit an inability to continue learning, termed loss of plasticity, and eventually a collapse in performance. For off-policy deep value-based RL methods, this phenomenon has been correlated with a decrease in representation rank and the ability to fit random targets, termed capacity loss. Although this correlation has generally been attributed to neural network learning under non-stationarity, the connection to representation dynamics has not been carefully studied in on-policy policy optimization methods. In this work, we empirically study representation dynamics in Proximal Policy Optimization (PPO) on the Atari and MuJoCo environments, revealing that PPO agents are also affected by feature rank deterioration and capacity loss. We show that this is aggravated by stronger non-stationarity, ultimately driving the actor’s performance to collapse, regardless of the performance of the critic. We ask why the trust region, specific to methods like PPO, cannot alleviate or prevent the collapse and find a connection between representation collapse and the degradation of the trust region, one exacerbating the other. Finally, we present Proximal Feature Optimization (PFO), a novel auxiliary loss that, along with other interventions, shows that regularizing the representation dynamics mitigates the performance collapse of PPO agents.

arxiv情報

著者 Skander Moalla,Andrea Miele,Daniil Pyatko,Razvan Pascanu,Caglar Gulcehre
発行日 2024-11-20 16:07:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク