要約
継続的な制御強化学習(RL)タスクに人気のある既存のアクタークリティックアルゴリズムは、その中に原則的な探査メカニズムがないため、サンプル効率が不十分です。
RLでの効率的な探索のためのトンプソンサンプリングの成功に動機付けられ、新しいモデルのないRLアルゴリズムであるLangevin Soft Actor Critic(LSAC)を提案します。これは、政策最適化に関する不確実性の推定を通じて批評家の学習を強化することを優先します。
LSACは3つの主要なイノベーションを採用しています。分布のLangevin Monte Carlo(LMC)ベースの分布$ Q $アップデート、$ Q $関数の後方の複数のモードを探索するための並列抑制、および$ Qで正規化された拡散合成状態アクションサンプルを探索するための並列抑制、
$アクショングラデーション。
当社の広範な実験は、LSACが継続的な制御タスクの主流のモデルフリーRLアルゴリズムのパフォーマンスを上回るか、一致させることを示しています。
特に、LSACは、連続アクションスペースを持つ連続制御タスクでのLMCベースのトンプソンサンプリングの最初の成功したアプリケーションをマークします。
要約(オリジナル)
Existing actor-critic algorithms, which are popular for continuous control reinforcement learning (RL) tasks, suffer from poor sample efficiency due to lack of principled exploration mechanism within them. Motivated by the success of Thompson sampling for efficient exploration in RL, we propose a novel model-free RL algorithm, Langevin Soft Actor Critic (LSAC), which prioritizes enhancing critic learning through uncertainty estimation over policy optimization. LSAC employs three key innovations: approximate Thompson sampling through distributional Langevin Monte Carlo (LMC) based $Q$ updates, parallel tempering for exploring multiple modes of the posterior of the $Q$ function, and diffusion synthesized state-action samples regularized with $Q$ action gradients. Our extensive experiments demonstrate that LSAC outperforms or matches the performance of mainstream model-free RL algorithms for continuous control tasks. Notably, LSAC marks the first successful application of an LMC based Thompson sampling in continuous control tasks with continuous action spaces.
arxiv情報
著者 | Haque Ishfaq,Guangyuan Wang,Sami Nur Islam,Doina Precup |
発行日 | 2025-01-29 18:18:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google