Extremum-Seeking Action Selection for Accelerating Policy Optimization

要約

連続空間を制御するための強化学習では、通常、ガウス分布などの高エントロピーの確率論的ポリシーを使用して、パフォーマンスを最適化するための局所探索とポリシー勾配の推定を行います。
ロボット制御の問題の多くは、複雑で不安定なダイナミクスを扱い、実現可能な制御多様体から外れたアクションを適用すると、すぐに望ましくない発散につながる可能性があります。
このような場合、アンビエント アクション空間から取得されたほとんどのサンプルは、ポリシーの改善にほとんど寄与しない低値の軌道を生成し、その結果、学習が遅くなったり失敗したりすることになります。
我々は、Extremum-Seeking Control (ESC) に基づく追加の適応制御ステップを導入することにより、このモデルフリー RL 設定におけるアクション選択を改善することを提案します。
確率的ポリシーからサンプリングされた各アクションに対して、正弦波摂動を適用し、応答信号として推定された Q 値をクエリします。
ESC に基づいて、環境に適用する前に、サンプリングされたアクションを動的に改善して、近くの最適値に近づけます。
私たちの手法は、学習効率を向上させるために標準的なポリシー最適化に簡単に追加でき、さまざまな制御学習環境で実証されています。

要約(オリジナル)

Reinforcement learning for control over continuous spaces typically uses high-entropy stochastic policies, such as Gaussian distributions, for local exploration and estimating policy gradient to optimize performance. Many robotic control problems deal with complex unstable dynamics, where applying actions that are off the feasible control manifolds can quickly lead to undesirable divergence. In such cases, most samples taken from the ambient action space generate low-value trajectories that hardly contribute to policy improvement, resulting in slow or failed learning. We propose to improve action selection in this model-free RL setting by introducing additional adaptive control steps based on Extremum-Seeking Control (ESC). On each action sampled from stochastic policies, we apply sinusoidal perturbations and query for estimated Q-values as the response signal. Based on ESC, we then dynamically improve the sampled actions to be closer to nearby optima before applying them to the environment. Our methods can be easily added in standard policy optimization to improve learning efficiency, which we demonstrate in various control learning environments.

arxiv情報

著者 Ya-Chien Chang,Sicun Gao
発行日 2024-04-02 02:39:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク