Continuous Control with Coarse-to-fine Reinforcement Learning

要約

強化学習 (RL) アルゴリズムのサンプル効率の向上は最近進んでいますが、現実の環境に実際に導入できる RL アルゴリズムを設計することは依然として課題です。
この論文では、粗いものから細かいものまでの方法で連続アクション空間にズームインするように RL エージェントを訓練し、安定したサンプル効率の高い値の使用を可能にするフレームワークである粗いものから細かいものへの強化学習 (CRL) を紹介します。
きめの細かい連続制御タスクのための、ベースの RL アルゴリズム。
私たちの重要なアイデアは、(i) 連続アクション空間を複数の間隔に離散化し、(ii) 最も高い Q 値を持つ間隔を選択して次のレベルでさらに離散化するという手順を繰り返すことによって、アクションを出力するエージェントをトレーニングすることです。
次に、Coarse-to-fine Q-Network (CQN) と呼ばれる、CRL フレームワーク内に具体的な値ベースのアルゴリズムを導入します。
私たちの実験では、適度な数の環境インタラクションと専門家によるデモンストレーションを伴う、報酬がまばらな 20 個の RLBench 操作タスクにおいて、CQN が RL および動作クローン作成ベースラインを大幅に上回るパフォーマンスを示すことが実証されました。
また、CQN がオンライン トレーニングの数分以内に現実世界の操作タスクを解決することを確実に学習することも示します。

要約(オリジナル)

Despite recent advances in improving the sample-efficiency of reinforcement learning (RL) algorithms, designing an RL algorithm that can be practically deployed in real-world environments remains a challenge. In this paper, we present Coarse-to-fine Reinforcement Learning (CRL), a framework that trains RL agents to zoom-into a continuous action space in a coarse-to-fine manner, enabling the use of stable, sample-efficient value-based RL algorithms for fine-grained continuous control tasks. Our key idea is to train agents that output actions by iterating the procedure of (i) discretizing the continuous action space into multiple intervals and (ii) selecting the interval with the highest Q-value to further discretize at the next level. We then introduce a concrete, value-based algorithm within the CRL framework called Coarse-to-fine Q-Network (CQN). Our experiments demonstrate that CQN significantly outperforms RL and behavior cloning baselines on 20 sparsely-rewarded RLBench manipulation tasks with a modest number of environment interactions and expert demonstrations. We also show that CQN robustly learns to solve real-world manipulation tasks within a few minutes of online training.

arxiv情報

著者 Younggyo Seo,Jafar Uruç,Stephen James
発行日 2024-07-10 16:04:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク