要約
強化学習(RL)は、特にアクタークリティック(AC)フレームワーク内の深いニューラルネットワークと組み合わせると、複雑な制御タスクに大きな可能性を示しています。
ただし、実際のアプリケーションでは、探索のバランス、学習安定性、サンプル効率のバランスは依然として大きな課題です。
ソフトアクタークリティック(SAC)や近位政策最適化(PPO)などの従来の方法は、エントロピーまたは相対エントロピーの正則化を組み込むことにより、これらの問題に対処しますが、不安定性と低いサンプル効率の問題に直面することがよくあります。
このホワイトペーパーでは、ACフレームワーク内でエントロピーと相対エントロピーの正則化をシームレスに統合する保守的なソフトアクタークライティック(CSAC)アルゴリズムを提案します。
CSACは、相対的なエントロピーの正則化を使用して、過度に積極的なポリシーの更新を回避しながら、エントロピーの正則化を通じて探索を改善します。
ベンチマークタスクと現実世界のロボットシミュレーションに関する評価は、CSACが既存の方法よりも安定性と効率の大幅な改善を提供することを示しています。
これらの調査結果は、CSACが動的環境での制御タスクに強い堅牢性とアプリケーションの可能性を提供することを示唆しています。
要約(オリジナル)
Reinforcement Learning (RL) has shown great potential in complex control tasks, particularly when combined with deep neural networks within the Actor-Critic (AC) framework. However, in practical applications, balancing exploration, learning stability, and sample efficiency remains a significant challenge. Traditional methods such as Soft Actor-Critic (SAC) and Proximal Policy Optimization (PPO) address these issues by incorporating entropy or relative entropy regularization, but often face problems of instability and low sample efficiency. In this paper, we propose the Conservative Soft Actor-Critic (CSAC) algorithm, which seamlessly integrates entropy and relative entropy regularization within the AC framework. CSAC improves exploration through entropy regularization while avoiding overly aggressive policy updates with the use of relative entropy regularization. Evaluations on benchmark tasks and real-world robotic simulations demonstrate that CSAC offers significant improvements in stability and efficiency over existing methods. These findings suggest that CSAC provides strong robustness and application potential in control tasks under dynamic environments.
arxiv情報
著者 | Xinyi Yuan,Zhiwei Shang,Wenjun Huang,Yunduan Cui,Di Chen,Meixin Zhu |
発行日 | 2025-05-06 09:26:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google