Highly Efficient Self-Adaptive Reward Shaping for Reinforcement Learning

要約

報酬形成は、より高密度で情報量の多い報酬信号を構築することで、強化学習における報酬がまばらであるという課題に対処します。
自己適応的で高効率な報酬形成を達成するために、過去の経験から得られた成功率を形成された報酬に組み込む新しい方法を提案します。
私たちのアプローチは、より多くのデータが収集されるにつれて、不確実な値から信頼できる値に動的に変化するベータ分布からサンプリングされた成功率を利用します。
最初は、自己適応の成功率は探索を促すためによりランダム性を示します。
時間が経つにつれて、それらはより確実に搾取を強化するようになり、その結果、探査と搾取の間のより良いバランスが達成されます。
カーネル密度推定 (KDE) とランダム フーリエ特徴 (RFF) を組み合わせてベータ分布を導出し、高次元の連続状態空間での計算効率の高い実装を実現します。
この方法は、ノンパラメトリックで学習不要のアプローチを提供します。
提案された方法は、まばらで遅延した報酬を伴う広範囲の連続制御タスクで評価され、いくつかのベースラインと比較してサンプル効率と収束安定性が大幅に向上していることが実証されています。

要約(オリジナル)

Reward shaping addresses the challenge of sparse rewards in reinforcement learning by constructing denser and more informative reward signals. To achieve self-adaptive and highly efficient reward shaping, we propose a novel method that incorporates success rates derived from historical experiences into shaped rewards. Our approach utilizes success rates sampled from Beta distributions, which dynamically evolve from uncertain to reliable values as more data is collected. Initially, the self-adaptive success rates exhibit more randomness to encourage exploration. Over time, they become more certain to enhance exploitation, thus achieving a better balance between exploration and exploitation. We employ Kernel Density Estimation (KDE) combined with Random Fourier Features (RFF) to derive the Beta distributions, resulting in a computationally efficient implementation in high-dimensional continuous state spaces. This method provides a non-parametric and learning-free approach. The proposed method is evaluated on a wide range of continuous control tasks with sparse and delayed rewards, demonstrating significant improvements in sample efficiency and convergence stability compared to several baselines.

arxiv情報

著者 Haozhe Ma,Zhengding Luo,Thanh Vinh Vo,Kuankuan Sima,Tze-Yun Leong
発行日 2024-08-06 08:22:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク