要約
強化学習は、高次元の感覚入力から実際の複雑なタスクを解決するために適用されます。
過去 10 年間で、強化学習アルゴリズムの長いリストが作成されました。
最近の進歩は、生の感覚信号表現のための深層学習の恩恵を受けています。
当然のことながら、1 つの疑問が生じます。さまざまなロボット操作タスクに関して、それらはどの程度うまく機能するのでしょうか?
ベンチマークは、アルゴリズムを比較するための科学的な方法を提供するために、客観的なパフォーマンス メトリックを使用します。
この論文では、高次元の連続的なアクションと状態空間を持つ、ロボット操作の最初のベンチマークである RMBench を紹介します。
観測されたピクセルを入力として直接使用する強化学習アルゴリズムを実装および評価します。
トレーニングのパフォーマンスと安定性を示すために、平均パフォーマンスと学習曲線を報告します。
私たちの研究は、研究されたアルゴリズムのどれもすべてのタスクをうまく処理できないこと、ソフト Actor-Critic が平均的な報酬と安定性においてほとんどのアルゴリズムよりも優れていること、データ拡張と組み合わせたアルゴリズムが学習ポリシーを促進する可能性があることを結論付けています。
私たちのコードは、https://github.com/xiangyanfei212/RMBench-2022 で公開されており、すべてのベンチマーク タスクと研究されたアルゴリズムが含まれています。
要約(オリジナル)
Reinforcement learning is applied to solve actual complex tasks from high-dimensional, sensory inputs. The last decade has developed a long list of reinforcement learning algorithms. Recent progress benefits from deep learning for raw sensory signal representation. One question naturally arises: how well do they perform concerning different robotic manipulation tasks? Benchmarks use objective performance metrics to offer a scientific way to compare algorithms. In this paper, we present RMBench, the first benchmark for robotic manipulations, which have high-dimensional continuous action and state spaces. We implement and evaluate reinforcement learning algorithms that directly use observed pixels as inputs. We report their average performance and learning curves to show their performance and stability of training. Our study concludes that none of the studied algorithms can handle all tasks well, soft Actor-Critic outperforms most algorithms in average reward and stability, and an algorithm combined with data augmentation may facilitate learning policies. Our code is publicly available at https://github.com/xiangyanfei212/RMBench-2022, including all benchmark tasks and studied algorithms.
arxiv情報
著者 | Yanfei Xiang,Xin Wang,Shu Hu,Bin Zhu,Xiaomeng Huang,Xi Wu,Siwei Lyu |
発行日 | 2023-03-07 12:12:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google