Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning

要約

継続的なアクションスペースの場合、俳優と批判的な方法は、オンライン強化学習(RL)で広く使用されています。
ただし、通常、ベルマン最適性演算子を使用して最適値関数をモデル化する離散アクションのRLアルゴリズムとは異なり、継続アクションのRLアルゴリズムは通常、Bellmanオペレーターを使用した現在のポリシーのQ値をモデル化します。
継続的なアクションのためのこれらのアルゴリズムは、改善のためのポリシー更新のみに依存しており、多くの場合、サンプル効率が低くなります。
この研究では、Bellman Optimalityオペレーターをアクタークリティックフレームワークに組み込むことの有効性を検証します。
単純な環境での実験では、最適値のモデリングが学習を加速し、過大評価バイアスにつながることが示されています。
これに対処するために、Bellman OptimalityオペレーターからBellmanオペレーターに徐々に移行するアニーリングアプローチを提案し、それにより学習を促進しながらバイアスを緩和します。
TD3とSACと組み合わされたこの方法は、さまざまな移動および操作タスクにわたって既存のアプローチを大幅に上回り、最適性に関連するハイパーパラメーターのパフォーマンスと堅牢性の向上を示しています。

要約(オリジナル)

For continuous action spaces, actor-critic methods are widely used in online reinforcement learning (RL). However, unlike RL algorithms for discrete actions, which generally model the optimal value function using the Bellman optimality operator, RL algorithms for continuous actions typically model Q-values for the current policy using the Bellman operator. These algorithms for continuous actions rely exclusively on policy updates for improvement, which often results in low sample efficiency. This study examines the effectiveness of incorporating the Bellman optimality operator into actor-critic frameworks. Experiments in a simple environment show that modeling optimal values accelerates learning but leads to overestimation bias. To address this, we propose an annealing approach that gradually transitions from the Bellman optimality operator to the Bellman operator, thereby accelerating learning while mitigating bias. Our method, combined with TD3 and SAC, significantly outperforms existing approaches across various locomotion and manipulation tasks, demonstrating improved performance and robustness to hyperparameters related to optimality.

arxiv情報

著者 Motoki Omura,Kazuki Ota,Takayuki Osa,Yusuke Mukuta,Tatsuya Harada
発行日 2025-06-06 10:46:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク