Gradient-based Regularization for Action Smoothness in Robotic Control with Reinforcement Learning

要約

深層強化学習(Deep Reinforcement Learning:DRL)は、複雑なコンピュータゲームから実世界への応用に至るまで、目覚ましい成功を収めており、動的環境で学習可能な知的エージェントの可能性を示している。しかし、実世界での応用には、ジャーキーな軌道がシステムの安全性を損なうだけでなく、消費電力を増加させ、ロボットシステムや自律システムの寿命を縮めるジャーキー問題などの課題がある。ジャーキーな動作に対処するために、正則化項を追加して動作の変化を低減することで、CAPS(Conditioning for Action Policy Smoothness)と呼ばれる手法が提案された。本論文ではさらに、勾配に基づくCAPS(Grad-CAPS)と名付けられた新しい手法を提案し、行動の勾配の差を減らすことでCAPSを修正し、変位正規化を用いてエージェントが不変な行動スケールに適応できるようにする。その結果、本手法はジグザグ行動シーケンスを効果的に減少させるとともに、ポリシーの表現力と多様なシナリオや環境に対する本手法の適応性を向上させる。実験では、Grad-CAPSを異なる強化学習アルゴリズムと統合し、DeepMind Control SuiteとOpenAI Gym環境における様々なロボット関連タスクに対する性能を評価した。その結果、Grad-CAPSは、CAPSやバニラエージェントと比較して、同程度の滑らかさを維持しながら、パフォーマンスを効果的に向上させることが実証された。

要約(オリジナル)

Deep Reinforcement Learning (DRL) has achieved remarkable success, ranging from complex computer games to real-world applications, showing the potential for intelligent agents capable of learning in dynamic environments. However, its application in real-world scenarios presents challenges, including the jerky problem, in which jerky trajectories not only compromise system safety but also increase power consumption and shorten the service life of robotic and autonomous systems. To address jerky actions, a method called conditioning for action policy smoothness (CAPS) was proposed by adding regularization terms to reduce the action changes. This paper further proposes a novel method, named Gradient-based CAPS (Grad-CAPS), that modifies CAPS by reducing the difference in the gradient of action and then uses displacement normalization to enable the agent to adapt to invariant action scales. Consequently, our method effectively reduces zigzagging action sequences while enhancing policy expressiveness and the adaptability of our method across diverse scenarios and environments. In the experiments, we integrated Grad-CAPS with different reinforcement learning algorithms and evaluated its performance on various robotic-related tasks in DeepMind Control Suite and OpenAI Gym environments. The results demonstrate that Grad-CAPS effectively improves performance while maintaining a comparable level of smoothness compared to CAPS and Vanilla agents.

arxiv情報

著者 I Lee,Hoang-Giang Cao,Cong-Tinh Dao,Yu-Cheng Chen,I-Chen Wu
発行日 2024-07-05 07:35:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク