The RL Perceptron: Generalisation Dynamics of Policy Learning in High Dimensions

要約

強化学習 (RL) アルゴリズムは、さまざまな領域で変革をもたらすことが証明されています。
現実世界の領域に取り組むために、これらのシステムは多くの場合、ニューラル ネットワークを使用して、ピクセルやその他の高次元の感覚入力から直接ポリシーを学習します。
対照的に、RL 理論の多くは離散状態空間または最悪の場合の分析に焦点を当てており、高次元設定における政策学習のダイナミクスについては根本的な疑問が残っています。
ここでは、さまざまな学習プロトコルを捕捉し、その典型的なダイナミクスを一連の閉形式常微分方程式 (ODE) として導出できる、RL の可解な高次元モデルを提案します。
私たちは、RL でのトレーニング中のアニーリング スキームとカリキュラムに似た、学習率とタスクの難易度の最適なスケジュールを導き出し、モデルが報酬が少ない場合の遅延学習を含む豊かな動作を示すことを示します。
報酬ベースラインに応じたさまざまな学習体制。
そして、報酬の厳格さによって引き起こされる速度と精度のトレードオフ。
Procgen ゲーム「Bossfight」とアーケード学習環境ゲーム「Pong」の亜種に関する実験でも、実際にはこのような速度と精度のトレードオフが示されています。
これらの結果を総合すると、高次元 RL における理論と実践の間のギャップを埋めるための一歩が踏み出されます。

要約(オリジナル)

Reinforcement learning (RL) algorithms have proven transformative in a range of domains. To tackle real-world domains, these systems often use neural networks to learn policies directly from pixels or other high-dimensional sensory input. By contrast, much theory of RL has focused on discrete state spaces or worst-case analysis, and fundamental questions remain about the dynamics of policy learning in high-dimensional settings. Here, we propose a solvable high-dimensional model of RL that can capture a variety of learning protocols, and derive its typical dynamics as a set of closed-form ordinary differential equations (ODEs). We derive optimal schedules for the learning rates and task difficulty – analogous to annealing schemes and curricula during training in RL – and show that the model exhibits rich behaviour, including delayed learning under sparse rewards; a variety of learning regimes depending on reward baselines; and a speed-accuracy trade-off driven by reward stringency. Experiments on variants of the Procgen game ‘Bossfight’ and Arcade Learning Environment game ‘Pong’ also show such a speed-accuracy trade-off in practice. Together, these results take a step towards closing the gap between theory and practice in high-dimensional RL.

arxiv情報

著者 Nishil Patel,Sebastian Lee,Stefano Sarao Mannelli,Sebastian Goldt,Adrew Saxe
発行日 2023-06-21 16:38:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG パーマリンク