No Representation, No Trust: Connecting Representation, Collapse, and Trust Issues in PPO

要約

強化学習 (RL) には、トレーニング中にエージェントが観察する状態と報酬がその変化するポリシーに依存するため、本質的に非定常性が溢れています。
したがって、ディープ RL のネットワークは、新しい観測に適応し、新しいターゲットに適合できる必要があります。
ただし、これまでの研究では、オフポリシーのディープバリューベース手法のネットワークでは表現ランクの低下が見られ、多くの場合、学習を継続できないことやパフォーマンスの低下と相関していることが観察されています。
この現象は一般に、非定常下でのニューラル ネットワーク学習に起因すると考えられていますが、無期限に学習できると考えられているオンポリシー最適化手法では見落とされてきました。
この研究では、Atari 環境と MuJoCo 環境での近接ポリシー最適化 (PPO) における表現ダイナミクスを実証的に研究し、PPO エージェントも特徴ランクの劣化と可塑性の損失の影響を受けることを明らかにしました。
我々は、これがより強力な非定常性によって悪化し、最終的には批評家の演技に関係なく、俳優の演技を崩壊に導くことを示します。
我々は、PPO における表現崩壊、パフォーマンス崩壊、および信頼領域の問題の間の関連性を示し、新しい補助損失である近接特徴最適化 (PFO) を提示します。これは、他の介入とともに、表現ダイナミクスの正規化によって PPO エージェントのパフォーマンスが向上することを示しています。

要約(オリジナル)

Reinforcement learning (RL) is inherently rife with non-stationarity since the states and rewards the agent observes during training depend on its changing policy. Therefore, networks in deep RL must be capable of adapting to new observations and fitting new targets. However, previous works have observed that networks in off-policy deep value-based methods exhibit a decrease in representation rank, often correlated with an inability to continue learning or a collapse in performance. Although this phenomenon has generally been attributed to neural network learning under non-stationarity, it has been overlooked in on-policy policy optimization methods which are often thought capable of training indefinitely. In this work, we empirically study representation dynamics in Proximal Policy Optimization (PPO) on the Atari and MuJoCo environments, revealing that PPO agents are also affected by feature rank deterioration and loss of plasticity. We show that this is aggravated with stronger non-stationarity, ultimately driving the actor’s performance to collapse, regardless of the performance of the critic. We draw connections between representation collapse, performance collapse, and trust region issues in PPO, and present Proximal Feature Optimization (PFO), a novel auxiliary loss, that along with other interventions shows that regularizing the representation dynamics improves the performance of PPO agents.

arxiv情報

著者 Skander Moalla,Andrea Miele,Razvan Pascanu,Caglar Gulcehre
発行日 2024-05-01 17:50:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク