要約
強化学習 (RL) を現実世界のタスクに適用する場合、サンプルの効率は依然として重要な課題です。
最近のアルゴリズムはサンプル効率の向上において大幅な進歩を遂げていますが、多様なドメインにわたって一貫して優れたパフォーマンスを達成できるアルゴリズムはありません。
このペーパーでは、サンプル効率の高い RL アルゴリズム用に設計された一般的なフレームワークである EfficientZero V2 を紹介します。
私たちは、EfficientZero のパフォーマンスを複数のドメインに拡張し、連続アクションと離散アクションの両方、さらには視覚的入力と低次元入力を網羅しました。
私たちが提案する一連の改善により、EfficientZero V2 は、限られたデータ設定の下でさまざまなタスクにおいて現在の最先端 (SOTA) を大幅に上回ります。
EfficientZero V2 は、一般的なアルゴリズムである DreamerV3 よりも顕著な進歩を示しており、Atari 100k、Proprio Control、Vision Control などのさまざまなベンチマークにわたる 66 の評価タスクのうち 50 で優れた結果を達成しています。
要約(オリジナル)
Sample efficiency remains a crucial challenge in applying Reinforcement Learning (RL) to real-world tasks. While recent algorithms have made significant strides in improving sample efficiency, none have achieved consistently superior performance across diverse domains. In this paper, we introduce EfficientZero V2, a general framework designed for sample-efficient RL algorithms. We have expanded the performance of EfficientZero to multiple domains, encompassing both continuous and discrete actions, as well as visual and low-dimensional inputs. With a series of improvements we propose, EfficientZero V2 outperforms the current state-of-the-art (SOTA) by a significant margin in diverse tasks under the limited data setting. EfficientZero V2 exhibits a notable advancement over the prevailing general algorithm, DreamerV3, achieving superior outcomes in 50 of 66 evaluated tasks across diverse benchmarks, such as Atari 100k, Proprio Control, and Vision Control.
arxiv情報
| 著者 | Shengjie Wang,Shaohuai Liu,Weirui Ye,Jiacheng You,Yang Gao | 
| 発行日 | 2024-09-12 08:37:27+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google