要約
近年、より多くのデータ、計算量、多様なタスクを活用することで、学習済みオプティマイザは教師あり学習において顕著な成功を収め、古典的な手作業で設計されたオプティマイザを凌駕している。強化学習(RL)は教師あり学習とは本質的に異なるものであり、実際にはこれらの学習済みオプティマイザは単純なRLタスクでさえもうまく機能しない。我々はこの現象を調査し、3つの問題を明らかにする。第一に、RLエージェントの勾配は対数で広い範囲にわたって変化するが、その絶対値は小さい範囲にあるため、ニューラルネットワークは正確なパラメータ更新を得ることが難しい。第二に、エージェントの勾配分布は非依存的かつ同一分布であり、非効率的なメタ学習につながる。最後に、エージェントと環境の相互作用が非常に確率的であるため、エージェント勾配は高いバイアスと分散を持ち、RLのためのオプティマイザ学習の難易度を高める。我々は、これらの問題を解決するために、勾配処理、パイプライン学習、誘導バイアスに優れた新しいオプティマイザ構造を提案する。これらの技術を適用することで、RLのためのオプティマイザをゼロから学習することが可能であることを初めて示す。おもちゃのタスクでしか学習していないが、我々の学習したオプティマイザはBraxの未知の複雑なタスクにも汎化できる。
要約(オリジナル)
In recent years, by leveraging more data, computation, and diverse tasks, learned optimizers have achieved remarkable success in supervised learning, outperforming classical hand-designed optimizers. Reinforcement learning (RL) is essentially different from supervised learning and in practice these learned optimizers do not work well even in simple RL tasks. We investigate this phenomenon and identity three issues. First, the gradients of an RL agent vary across a wide range in logarithms while their absolute values are in a small range, making neural networks hard to obtain accurate parameter updates. Second, the agent-gradient distribution is non-independent and identically distributed, leading to inefficient meta-training. Finally, due to highly stochastic agent-environment interactions, the agent-gradients have high bias and variance, which increase the difficulty of learning an optimizer for RL. We propose gradient processing, pipeline training, and a novel optimizer structure with good inductive bias to address these issues. By applying these techniques, for the first time, we show that learning an optimizer for RL from scratch is possible. Although only trained in toy tasks, our learned optimizer can generalize to unseen complex tasks in Brax.
arxiv情報
| 著者 | Qingfeng Lan,A. Rupam Mahmood,Shuicheng Yan,Zhongwen Xu | 
| 発行日 | 2023-07-02 09:40:07+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
