要約
強化学習 (RL) は、複雑な意思決定および制御タスクに取り組む上で非常に効果的であることが証明されています。
ただし、一般的なモデルフリー RL 手法は、よく知られている過大評価の問題により、深刻なパフォーマンスの低下に直面することがよくあります。
この問題に対応して、私たちは最近、分布ソフト アクター クリティカル (DSAC または DSAC-v1) と呼ばれるオフポリシー RL アルゴリズムを導入しました。これは、連続ガウス値分布を学習することで値の推定精度を効果的に向上させることができます。
それにもかかわらず、標準の DSAC には、場合によっては不安定な学習プロセスやタスク固有の報酬スケーリングの必要性など、独自の欠点があり、一部の特殊なタスクでは全体的なパフォーマンスと適応性が妨げられる可能性があります。
このペーパーでは、これらの欠点に対処するために、標準 DSAC に対する 3 つの重要な改良点をさらに紹介します。
これらの改良は、期待値の置換、双子の値の分布学習、分散ベースの批評家の勾配調整で構成されます。
修正された RL アルゴリズムは、3 つの改良点 (DSAC-T または DSAC-v2) を備えた DSAC と名付けられ、そのパフォーマンスはさまざまなベンチマーク タスクのセットで体系的に評価されます。
タスク固有のハイパーパラメータ調整を行わなくても、DSAC-T は、テストされたすべての環境において、SAC、TD3、DDPG、TRPO、PPO などの多くの主流のモデルフリー RL アルゴリズムを上回るか、それに匹敵します。
さらに、DSAC-T は、標準バージョンとは異なり、非常に安定した学習プロセスを保証し、さまざまな報酬スケールにわたって同様のパフォーマンスを提供します。
要約(オリジナル)
Reinforcement learning (RL) has proven to be highly effective in tackling complex decision-making and control tasks. However, prevalent model-free RL methods often face severe performance degradation due to the well-known overestimation issue. In response to this problem, we recently introduced an off-policy RL algorithm, called distributional soft actor-critic (DSAC or DSAC-v1), which can effectively improve the value estimation accuracy by learning a continuous Gaussian value distribution. Nonetheless, standard DSAC has its own shortcomings, including occasionally unstable learning processes and the necessity for task-specific reward scaling, which may hinder its overall performance and adaptability in some special tasks. This paper further introduces three important refinements to standard DSAC in order to address these shortcomings. These refinements consist of expected value substituting, twin value distribution learning, and variance-based critic gradient adjusting. The modified RL algorithm is named as DSAC with three refinements (DSAC-T or DSAC-v2), and its performances are systematically evaluated on a diverse set of benchmark tasks. Without any task-specific hyperparameter tuning, DSAC-T surpasses or matches a lot of mainstream model-free RL algorithms, including SAC, TD3, DDPG, TRPO, and PPO, in all tested environments. Additionally, DSAC-T, unlike its standard version, ensures a highly stable learning process and delivers similar performance across varying reward scales.
arxiv情報
著者 | Jingliang Duan,Wenxuan Wang,Liming Xiao,Jiaxin Gao,Shengbo Eben Li |
発行日 | 2023-12-28 14:08:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google