Dissecting Deep RL with High Update Ratios: Combatting Value Divergence

要約

深層強化学習アルゴリズムは、値関数の発散に対処することで、勾配更新の数が環境サンプルの数を大幅に超える設定において、ネットワーク パラメーターをリセットすることなく学習能力を維持できることを示します。
データに対する更新の比率が大きい場合、Nikishin らによる最近の研究では、
(2022) は、エージェントが初期の相互作用に過剰適合し、その後の経験を軽視し、学習能力を損なう優越性バイアスの出現を示唆しました。
この研究では、優越性バイアスにつながる現象を調査します。
私たちは、学習の失敗を引き起こすと推測されるトレーニングの初期段階を検証し、根本的な課題の 1 つが長年の知り合いである価値関数の発散であることを発見しました。
過度にインフレートされた Q 値は、分布外のデータだけでなく分布内のデータでも見られ、オプティマイザーの勢いによって推進される目に見えないアクション予測の過大評価に関連している可能性があります。
私たちは、大きな更新率での学習を可能にする単純なユニットボール正規化を採用し、広く使用されている dm_control スイートでその有効性を示し、モデルベースのアプローチに匹敵する困難な犬のタスクで強力なパフォーマンスを獲得します。
私たちの結果は、初期のデータの過学習による最適ではない学習についての事前の説明に一部疑問を投げかけています。

要約(オリジナル)

We show that deep reinforcement learning algorithms can retain their ability to learn without resetting network parameters in settings where the number of gradient updates greatly exceeds the number of environment samples by combatting value function divergence. Under large update-to-data ratios, a recent study by Nikishin et al. (2022) suggested the emergence of a primacy bias, in which agents overfit early interactions and downplay later experience, impairing their ability to learn. In this work, we investigate the phenomena leading to the primacy bias. We inspect the early stages of training that were conjectured to cause the failure to learn and find that one fundamental challenge is a long-standing acquaintance: value function divergence. Overinflated Q-values are found not only on out-of-distribution but also in-distribution data and can be linked to overestimation on unseen action prediction propelled by optimizer momentum. We employ a simple unit-ball normalization that enables learning under large update ratios, show its efficacy on the widely used dm_control suite, and obtain strong performance on the challenging dog tasks, competitive with model-based approaches. Our results question, in parts, the prior explanation for sub-optimal learning due to overfitting early data.

arxiv情報

著者 Marcel Hussing,Claas Voelcker,Igor Gilitschenski,Amir-massoud Farahmand,Eric Eaton
発行日 2024-07-15 17:08:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク