要約
強化学習(RL)を実世界のタスクに適用する上で、サンプル効率は依然として重要な課題である。最近のアルゴリズムはサンプル効率の改善において大きな進歩を遂げているが、多様な領域において一貫して優れた性能を達成したものはない。本稿では、サンプル効率の良いRLアルゴリズムのために設計された一般的なフレームワークであるEfficientZero V2を紹介する。我々はEfficientZeroの性能を複数のドメインに拡張し、連続的な行動と離散的な行動の両方、また視覚的な入力と低次元の入力を包含する。我々が提案する一連の改良により、EfficientZero V2は、限られたデータ設定の下での多様なタスクにおいて、現在の最新技術(SOTA)を大幅に上回る性能を発揮する。EfficientZero V2は、一般的なアルゴリズムであるDreamerV3よりも顕著な進歩を示し、Atari 100k、Proprio Control、Vision Controlなどの多様なベンチマークにおいて、評価された66タスク中50タスクで優れた結果を達成した。
要約(オリジナル)
Sample efficiency remains a crucial challenge in applying Reinforcement Learning (RL) to real-world tasks. While recent algorithms have made significant strides in improving sample efficiency, none have achieved consistently superior performance across diverse domains. In this paper, we introduce EfficientZero V2, a general framework designed for sample-efficient RL algorithms. We have expanded the performance of EfficientZero to multiple domains, encompassing both continuous and discrete actions, as well as visual and low-dimensional inputs. With a series of improvements we propose, EfficientZero V2 outperforms the current state-of-the-art (SOTA) by a significant margin in diverse tasks under the limited data setting. EfficientZero V2 exhibits a notable advancement over the prevailing general algorithm, DreamerV3, achieving superior outcomes in 50 of 66 evaluated tasks across diverse benchmarks, such as Atari 100k, Proprio Control, and Vision Control.
arxiv情報
| 著者 | Shengjie Wang,Shaohuai Liu,Weirui Ye,Jiacheng You,Yang Gao |
| 発行日 | 2024-03-01 14:42:25+00:00 |
| arxivサイト | arxiv_id(pdf) |