Reward Centering

要約

継続的な強化学習問題を解くための割引手法は、報酬の経験的平均を差し引いて報酬を中心に置くと、パフォーマンスが大幅に向上することを示します。
一般的に使用される割引率では大幅な改善が見られ、割引率が 1 に近づくにつれてさらに改善されます。
さらに、問題の報酬が定数だけシフトされると、標準的な手法のパフォーマンスが大幅に低下するのに対し、報酬を中心とする手法は影響を受けないことを示します。
平均報酬の推定は、ポリシー設定で簡単に行えます。
オフポリシー設定のために、もう少し洗練された方法を提案します。
報酬センタリングは一般的な考え方であるため、ほぼすべての強化学習アルゴリズムが報酬センタリングの追加によって恩恵を受けることが期待されます。

要約(オリジナル)

We show that discounted methods for solving continuing reinforcement learning problems can perform significantly better if they center their rewards by subtracting out the rewards’ empirical average. The improvement is substantial at commonly used discount factors and increases further as the discount factor approaches one. In addition, we show that if a problem’s rewards are shifted by a constant, then standard methods perform much worse, whereas methods with reward centering are unaffected. Estimating the average reward is straightforward in the on-policy setting; we propose a slightly more sophisticated method for the off-policy setting. Reward centering is a general idea, so we expect almost every reinforcement-learning algorithm to benefit by the addition of reward centering.

arxiv情報

著者 Abhishek Naik,Yi Wan,Manan Tomar,Richard S. Sutton
発行日 2024-05-16 11:33:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク