要約
分布強化学習(RL)の理論的な利点は、その顕著な経験的性能にもかかわらず、古典的なRLに対する優位性は依然として不明である。本論文では、CDRL(Categorical Distributional RL)を出発点として、戻り密度関数の分解技術を適用することにより、分布マッチング正則化(distribution-matching regularization)を導出する。分布型RLにおけるこの正則化は、期待値だけでなく、追加的なリターン分布情報を取り込むことを目的としており、政策最適化における報酬信号の増強に貢献する。探索を促すように政策を明示的に最適化するMaxEnt RLにおけるエントロピー正則化と比較して、CDRLにおける正則化は、新しい報酬信号によって導かれる政策を暗黙的に最適化し、ターゲットとなるリターン分布の不確実性に合わせることで、不確実性を考慮した探索効果をもたらす。最後に、広範な実験により、分布型RLにおけるこの不確実性を考慮した正則化が、古典的RLに対する経験的な利点において重要であることを実証する。
要約(オリジナル)
The theoretical advantages of distributional reinforcement learning~(RL) over classical RL remain elusive despite its remarkable empirical performance. Starting from Categorical Distributional RL~(CDRL), we attribute the potential superiority of distributional RL to a derived distribution-matching regularization by applying a return density function decomposition technique. This unexplored regularization in the distributional RL context is aimed at capturing additional return distribution information regardless of only its expectation, contributing to an augmented reward signal in the policy optimization. Compared with the entropy regularization in MaxEnt RL that explicitly optimizes the policy to encourage the exploration, the resulting regularization in CDRL implicitly optimizes policies guided by the new reward signal to align with the uncertainty of target return distributions, leading to an uncertainty-aware exploration effect. Finally, extensive experiments substantiate the importance of this uncertainty-aware regularization in distributional RL on the empirical benefits over classical RL.
arxiv情報
著者 | Ke Sun,Yingnan Zhao,Enze Shi,Yafei Wang,Xiaodong Yan,Bei Jiang,Linglong Kong |
発行日 | 2024-02-02 18:31:23+00:00 |
arxivサイト | arxiv_id(pdf) |