要約
【タイトル】表現の単純な正則化で深層強化学習を向上させることができる
【要約】
– 深層強化学習(DRL)は、エージェントが高次元情報から良い方策を学習することを可能にする。一方、表現学習は、不要な情報を除去し、適切な情報を保持する。
– この研究は、$Q$-networkとそのターゲット$Q$-networkの学習された表現が望ましい区別可能な表現特性を満たすべきであるという理論を示している。
– ただし、実験により、学習されたDRLエージェントは、この特性を破り、サブ最適な方策に導く可能性があることがわかった。
– そこで、表現の内部正則化を明示的に行う「PEER」と呼ばれる単純で効果的な正則化を提案する。PEERの収束率の保証を提供している。
– PEERの実装にはコードの1行だけ必要であり、DRLにPEERを組み込むと、大幅なパフォーマンスとサンプル効率の向上がみられる。
– 総合的な実験では、PyBulletの4つの環境、DMControlの12のタスクのうち9つ、Atariの26のゲームのうち19つで、PEERが最先端の性能を発揮した。
– PEERは、Q-networkとそのターゲットの固有の表現特性を研究する最初の作業である。コードはhttps://sites.google.com/view/peer-cvpr2023/で利用可能である。
要約(オリジナル)
Deep reinforcement learning (DRL) gives the promise that an agent learns good policy from high-dimensional information, whereas representation learning removes irrelevant and redundant information and retains pertinent information. In this work, we demonstrate that the learned representation of the $Q$-network and its target $Q$-network should, in theory, satisfy a favorable distinguishable representation property. Specifically, there exists an upper bound on the representation similarity of the value functions of two adjacent time steps in a typical DRL setting. However, through illustrative experiments, we show that the learned DRL agent may violate this property and lead to a sub-optimal policy. Therefore, we propose a simple yet effective regularizer called Policy Evaluation with Easy Regularization on Representation (PEER), which aims to maintain the distinguishable representation property via explicit regularization on internal representations. And we provide the convergence rate guarantee of PEER. Implementing PEER requires only one line of code. Our experiments demonstrate that incorporating PEER into DRL can significantly improve performance and sample efficiency. Comprehensive experiments show that PEER achieves state-of-the-art performance on all 4 environments on PyBullet, 9 out of 12 tasks on DMControl, and 19 out of 26 games on Atari. To the best of our knowledge, PEER is the first work to study the inherent representation property of Q-network and its target. Our code is available at https://sites.google.com/view/peer-cvpr2023/.
arxiv情報
| 著者 | Qiang He,Huangyuan Su,Jieyu Zhang,Xinwen Hou | 
| 発行日 | 2023-04-23 08:43:38+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, OpenAI
