Reinforcement Learning with Elastic Time Steps

要約

従来の強化学習(RL)ポリシーは、一般的に固定された制御率で実装され、多くの場合、制御率選択の影響を無視している。これは、最適な制御率がタスク要件によって変化するため、非効率につながる可能性がある。我々は、制御頻度を動的に調整するために弾性時間ステップを使用するオフポリシーアクタークリティックアルゴリズムである多目的ソフト弾性アクタークリティック(MOSEAC)を提案する。このアプローチは、実行可能な最低周波数を選択することにより、計算資源を最小化する。我々は、MOSEACが理論レベルで収束し、安定したポリシーを生成することを示し、リアルタイム3Dレーシングゲームで我々の発見を検証する。MOSEACは、エネルギー効率とタスクの有効性の点で、他の可変時間ステップアプローチを大幅に上回った。さらに、MOSEACはより高速で安定した学習を実証し、ロボット工学における実世界のRL応用の可能性を示した。

要約(オリジナル)

Traditional Reinforcement Learning (RL) policies are typically implemented with fixed control rates, often disregarding the impact of control rate selection. This can lead to inefficiencies as the optimal control rate varies with task requirements. We propose the Multi-Objective Soft Elastic Actor-Critic (MOSEAC), an off-policy actor-critic algorithm that uses elastic time steps to dynamically adjust the control frequency. This approach minimizes computational resources by selecting the lowest viable frequency. We show that MOSEAC converges and produces stable policies at the theoretical level, and validate our findings in a real-time 3D racing game. MOSEAC significantly outperformed other variable time step approaches in terms of energy efficiency and task effectiveness. Additionally, MOSEAC demonstrated faster and more stable training, showcasing its potential for real-world RL applications in robotics.

arxiv情報

著者 Dong Wang,Giovanni Beltrame
発行日 2024-07-03 00:31:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO パーマリンク