要約
最近の強化学習アプローチでは、連続制御ベンチマークを解決するためのバンバン ポリシーの驚くほど強力な機能が示されています。
基礎となる粗いアクション空間の離散化は、多くの場合、好ましい探索特性をもたらしますが、最適制御理論に沿ったアクションペナルティが存在しない場合でも、最終的なパフォーマンスは目に見えて損なわれません。
ロボット工学アプリケーションでは、システムの磨耗とエネルギー効率を低減するために、スムーズな制御信号が一般的に好まれますが、初期のトレーニング中の探索にはアクション コストが悪影響を与える可能性があります。
この研究では、分離された Q 学習の最近の結果を利用して、高次元のアクション空間へのアプローチを dim(A) = まで拡張し、離散アクション スペースを粗い制御解像度から細かい制御解像度に拡張することで、このパフォーマンス ギャップを埋めることを目指しています。
38. 私たちの研究は、値分解と組み合わせた適応制御分解能が、連続制御タスクで驚くほど強力なパフォーマンスを生み出す単純なクリティカルのみのアルゴリズムを生み出すことを示しています。
要約(オリジナル)
Recent reinforcement learning approaches have shown surprisingly strong capabilities of bang-bang policies for solving continuous control benchmarks. The underlying coarse action space discretizations often yield favourable exploration characteristics while final performance does not visibly suffer in the absence of action penalization in line with optimal control theory. In robotics applications, smooth control signals are commonly preferred to reduce system wear and energy efficiency, but action costs can be detrimental to exploration during early training. In this work, we aim to bridge this performance gap by growing discrete action spaces from coarse to fine control resolution, taking advantage of recent results in decoupled Q-learning to scale our approach to high-dimensional action spaces up to dim(A) = 38. Our work indicates that an adaptive control resolution in combination with value decomposition yields simple critic-only algorithms that yield surprisingly strong performance on continuous control tasks.
arxiv情報
著者 | Tim Seyde,Peter Werner,Wilko Schwarting,Markus Wulfmeier,Daniela Rus |
発行日 | 2024-04-05 17:58:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google