Actor-Critic with variable time discretization via sustained actions

要約

強化学習 (RL) 手法は離散時間で機能します。
ロボット制御のような本質的に連続的な問題に RL を適用するには、特定の時間の離散化を定義する必要があります。
これは、トレーニングが容易なまばらな時間制御と、より優れた最終的なパフォーマンスを可能にする細かい時間制御の間の選択です。
この研究では、さまざまな時間離散化設定の利点を組み合わせたオフポリシー RL アルゴリズムである SusACER を提案します。
最初はスパース時間離散化で動作し、徐々に細かい時間離散化に切り替わります。
ロボット制御環境 (Ant、HalfCheetah、Hopper、および Walker2D) における時間の離散化の変化の影響を分析します。
すべての場合において、私たちが提案するアルゴリズムは最先端技術を上回ります。

要約(オリジナル)

Reinforcement learning (RL) methods work in discrete time. In order to apply RL to inherently continuous problems like robotic control, a specific time discretization needs to be defined. This is a choice between sparse time control, which may be easier to train, and finer time control, which may allow for better ultimate performance. In this work, we propose SusACER, an off-policy RL algorithm that combines the advantages of different time discretization settings. Initially, it operates with sparse time discretization and gradually switches to a fine one. We analyze the effects of the changing time discretization in robotic control environments: Ant, HalfCheetah, Hopper, and Walker2D. In all cases our proposed algorithm outperforms state of the art.

arxiv情報

著者 Jakub Łyskawa,Paweł Wawrzyński
発行日 2023-08-08 14:45:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク