要約
モデルベースの強化学習は、サンプル効率の向上が期待できるため、近年大きな関心を集めています。
さらに、深層学習モデルを使用すると、複雑なセンサー データからコンパクトなモデルを学習できる可能性があります。
しかし、これらの学習されたモデルの有効性、特に計画能力、つまり現在の政策を改善する能力は依然として不明瞭です。
この研究では、よく知られた深層モデルベースの強化学習アルゴリズムである MuZero を研究し、価値等価モデルの学習目標をどの程度達成しているか、また学習されたモデルが政策改善にどの程度役立つかを調査します。
他のさまざまな洞察の中でも、MuZero によって学習されたモデルは、目に見えないポリシーを評価するために効果的に一般化することができないため、モデルを使用して計画を立てることによって現在のポリシーをさらに改善できる範囲が制限されると結論付けています。
要約(オリジナル)
Model-based reinforcement learning has drawn considerable interest in recent years, given its promise to improve sample efficiency. Moreover, when using deep-learned models, it is potentially possible to learn compact models from complex sensor data. However, the effectiveness of these learned models, particularly their capacity to plan, i.e., to improve the current policy, remains unclear. In this work, we study MuZero, a well-known deep model-based reinforcement learning algorithm, and explore how far it achieves its learning objective of a value-equivalent model and how useful the learned models are for policy improvement. Amongst various other insights, we conclude that the model learned by MuZero cannot effectively generalize to evaluate unseen policies, which limits the extent to which we can additionally improve the current policy by planning with the model.
arxiv情報
著者 | Jinke He,Thomas M. Moerland,Frans A. Oliehoek |
発行日 | 2023-10-18 16:25:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google