要約
従来の強化学習 (RL) ポリシーは通常、固定の制御レートで実装され、多くの場合、制御レートの選択の影響が無視されます。
最適な制御速度はタスクの要件によって異なるため、これにより非効率が生じる可能性があります。
我々は、弾性タイムステップを使用して制御周波数を動的に調整するオフポリシーのアクタークリティックアルゴリズムである、Multi-Objective Soft Elastic Actor-Critic (MOSEAC) を提案します。
このアプローチでは、実行可能な最低の周波数を選択することにより、計算リソースを最小限に抑えます。
MOSEAC が理論レベルで収束して安定したポリシーを生成することを示し、リアルタイム 3D レーシング ゲームでその結果を検証します。
MOSEAC は、エネルギー効率とタスクの有効性の点で、他の可変時間ステップ アプローチよりも大幅に優れたパフォーマンスを発揮しました。
さらに、MOSEAC はより高速で安定したトレーニングを実証し、ロボット工学における現実世界の RL アプリケーションの可能性を示しました。
要約(オリジナル)
Traditional Reinforcement Learning (RL) policies are typically implemented with fixed control rates, often disregarding the impact of control rate selection. This can lead to inefficiencies as the optimal control rate varies with task requirements. We propose the Multi-Objective Soft Elastic Actor-Critic (MOSEAC), an off-policy actor-critic algorithm that uses elastic time steps to dynamically adjust the control frequency. This approach minimizes computational resources by selecting the lowest viable frequency. We show that MOSEAC converges and produces stable policies at the theoretical level, and validate our findings in a real-time 3D racing game. MOSEAC significantly outperformed other variable time step approaches in terms of energy efficiency and task effectiveness. Additionally, MOSEAC demonstrated faster and more stable training, showcasing its potential for real-world RL applications in robotics.
arxiv情報
著者 | Dong Wang,Giovanni Beltrame |
発行日 | 2024-08-11 05:59:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google