Maximum Entropy On-Policy Actor-Critic via Entropy Advantage Estimation

要約

エントロピー正則化は、ポリシー最適化のパフォーマンスと安定性を強化するために広く採用されている手法です。
エントロピー正則化の注目すべき形式は、エントロピー項を使用して目的を拡張し、それによって期待されるリターンとエントロピーを同時に最適化することです。
最大エントロピー強化学習 (MaxEnt RL) として知られるこのフレームワークは、理論的および経験的に成功を収めています。
しかし、直接的なポリシー上の行為者と批評家の設定における実際の応用は、驚くほど未開発のままです。
私たちは、これは実際にエントロピー報酬を管理することが難しいためであると仮説を立てています。
このペーパーでは、エントロピー目標を MaxEnt RL 目標から分離する簡単な方法を提案します。これにより、ポリシー設定での MaxEnt RL の実装が容易になります。
私たちの経験的評価は、MaxEnt フレームワーク内で Proximal Policy Optimization (PPO) と Trust Regional Policy Optimization (TRPO) を拡張すると、MuJoCo タスクと Procgen タスクの両方でポリシー最適化のパフォーマンスが向上することを示しています。
さらに、我々の結果は、一般化を強化する MaxEnt RL の能力を強調しています。

要約(オリジナル)

Entropy Regularisation is a widely adopted technique that enhances policy optimisation performance and stability. A notable form of entropy regularisation is augmenting the objective with an entropy term, thereby simultaneously optimising the expected return and the entropy. This framework, known as maximum entropy reinforcement learning (MaxEnt RL), has shown theoretical and empirical successes. However, its practical application in straightforward on-policy actor-critic settings remains surprisingly underexplored. We hypothesise that this is due to the difficulty of managing the entropy reward in practice. This paper proposes a simple method of separating the entropy objective from the MaxEnt RL objective, which facilitates the implementation of MaxEnt RL in on-policy settings. Our empirical evaluations demonstrate that extending Proximal Policy Optimisation (PPO) and Trust Region Policy Optimisation (TRPO) within the MaxEnt framework improves policy optimisation performance in both MuJoCo and Procgen tasks. Additionally, our results highlight MaxEnt RL’s capacity to enhance generalisation.

arxiv情報

著者 Jean Seong Bjorn Choe,Jong-Kook Kim
発行日 2024-07-25 15:48:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク