vMFER: Von Mises-Fisher Experience Resampling Based on Uncertainty of Gradient Directions for Policy Improvement

要約

強化学習 (RL) は、政策評価と政策改善という 2 つの基本的な操作を含む、意思決定の問題で広く使用されている手法です。
学習効率の向上は依然として RL の重要な課題であり、アンサンブル批評家を使用して政策評価の効率を高めることに多くの取り組みが焦点を当てています。
ただし、複数の批評家を使用すると、ポリシー改善プロセスのアクターが異なる勾配を取得する可能性があります。
以前の研究では、不一致を考慮せずにこれらの勾配を組み合わせていました。
したがって、学習効率を高めるには、ポリシー改善プロセスを最適化することが重要です。
この研究は、アンサンブル批判者によって引き起こされる勾配の不一致が政策改善に及ぼす影響を調査することに焦点を当てています。
政策改善プロセスで利用される勾配間の不一致を測定する手段として、勾配方向の不確実性の概念を導入します。
勾配間の不一致を測定することにより、勾配方向の不確実性が低い遷移は政策改善プロセスにおいてより信頼できることがわかります。
この分析に基づいて、von Mises-Fisher Experience Resampling (vMFER) と呼ばれる手法を提案します。この手法は、遷移をリサンプリングし、勾配方向の不確実性が低い遷移に高い信頼性を割り当てることで、ポリシー改善プロセスを最適化します。
私たちの実験では、vMFER がベンチマークを大幅に上回り、RL のアンサンブル構造に特に適していることが実証されました。

要約(オリジナル)

Reinforcement Learning (RL) is a widely employed technique in decision-making problems, encompassing two fundamental operations — policy evaluation and policy improvement. Enhancing learning efficiency remains a key challenge in RL, with many efforts focused on using ensemble critics to boost policy evaluation efficiency. However, when using multiple critics, the actor in the policy improvement process can obtain different gradients. Previous studies have combined these gradients without considering their disagreements. Therefore, optimizing the policy improvement process is crucial to enhance learning efficiency. This study focuses on investigating the impact of gradient disagreements caused by ensemble critics on policy improvement. We introduce the concept of uncertainty of gradient directions as a means to measure the disagreement among gradients utilized in the policy improvement process. Through measuring the disagreement among gradients, we find that transitions with lower uncertainty of gradient directions are more reliable in the policy improvement process. Building on this analysis, we propose a method called von Mises-Fisher Experience Resampling (vMFER), which optimizes the policy improvement process by resampling transitions and assigning higher confidence to transitions with lower uncertainty of gradient directions. Our experiments demonstrate that vMFER significantly outperforms the benchmark and is particularly well-suited for ensemble structures in RL.

arxiv情報

著者 Yiwen Zhu,Jinyi Liu,Wenya Wei,Qianyi Fu,Yujing Hu,Zhou Fang,Bo An,Jianye Hao,Tangjie Lv,Changjie Fan
発行日 2024-05-14 14:18:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク