No Representation, No Trust: Connecting Representation, Collapse, and Trust Issues in PPO

要約

強化学習 (RL) には、トレーニング中にエージェントが観察する状態と報酬がその変化するポリシーに依存するため、本質的に非定常性が溢れています。
したがって、ディープ RL のネットワークは、新しい観測に適応し、新しいターゲットに適合できる必要があります。
ただし、これまでの研究では、オフポリシーのディープバリューベース手法のネットワークでは表現ランクの低下が見られ、多くの場合、学習を継続できないことやパフォーマンスの低下と相関していることが観察されています。
この現象は一般に、非定常下でのニューラル ネットワーク学習に起因すると考えられていますが、無期限に学習できると考えられているオンポリシー最適化手法では見落とされてきました。
この研究では、Atari 環境と MuJoCo 環境での近接ポリシー最適化 (PPO) における表現ダイナミクスを実証的に研究し、PPO エージェントも特徴ランクの劣化と可塑性の損失の影響を受けることを明らかにしました。
我々は、これがより強力な非定常性によって悪化し、最終的には批評家の演技に関係なく、俳優の演技を崩壊に導くことを示します。
私たちは、なぜ PPO のような手法に特有な信頼領域が崩壊を軽減または防止できないのかを尋ねます。
私たちは、表現崩壊と信頼領域の劣化との間には関係があり、一方が他方を悪化させることを発見し、他の介入と併せて表現ダイナミクスを正規化することで改善されることを示す新しい補助損失である近接特徴最適化 (PFO) を提示します。
PPO エージェントのパフォーマンス。

要約(オリジナル)

Reinforcement learning (RL) is inherently rife with non-stationarity since the states and rewards the agent observes during training depend on its changing policy. Therefore, networks in deep RL must be capable of adapting to new observations and fitting new targets. However, previous works have observed that networks in off-policy deep value-based methods exhibit a decrease in representation rank, often correlated with an inability to continue learning or a collapse in performance. Although this phenomenon has generally been attributed to neural network learning under non-stationarity, it has been overlooked in on-policy policy optimization methods which are often thought capable of training indefinitely. In this work, we empirically study representation dynamics in Proximal Policy Optimization (PPO) on the Atari and MuJoCo environments, revealing that PPO agents are also affected by feature rank deterioration and loss of plasticity. We show that this is aggravated with stronger non-stationarity, ultimately driving the actor’s performance to collapse, regardless of the performance of the critic. We ask why the trust region, specific to methods like PPO, cannot alleviate or prevent the collapse. We find that there is a connection between representation collapse and the degradation of the trust region, one exacerbating the other, and present Proximal Feature Optimization (PFO), a novel auxiliary loss that, along with other interventions, shows that regularizing the representation dynamics improves the performance of PPO agents.

arxiv情報

著者 Skander Moalla,Andrea Miele,Razvan Pascanu,Caglar Gulcehre
発行日 2024-07-25 16:04:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク