The Benefits of Model-Based Generalization in Reinforcement Learning

要約

モデルベースの強化学習 (RL) は、エージェントが大量の想像上の経験を合成できるようにすることで、サンプル効率を向上させる可能性があると広く考えられています。
Experience Replay (ER) は単純な種類のモデルと考えることができ、深い RL の安定性と効率を向上させるのに効果的であることが証明されています。
原則として、学習されたパラメトリック モデルは、実際の経験から一般化して、追加のもっともらしい経験でデータセットを強化することで、ER を改善できます。
ただし、学習値関数も一般化できることを考えると、なぜモデルの一般化が優れているのかはすぐにはわかりません。
ここでは、学習されたモデルによって生成されたデータがいつ、どのように役立つと期待できるかについて、理論的および経験的な洞察を提供します。
まず、ベルマン方程式を使用してデータから直接値関数を学習するよりも、中間ステップとしてモデルを学習する方が、どのようにして可能な値関数のセットを絞り込むことができるかを動機づける簡単な定理を提供します。
次に、ニューラル ネットワーク関数近似を使用したより具体的な設定で同様の効果がどのように発生するかを経験的に示す実例を示します。
最後に、組み合わせは複雑だが、学習されたモデルを一般化できる因数分解された構造を持つ環境におけるオンライン RL のモデルベース学習の利点を示す広範な実験を提供します。
これらの実験では、ER 単独と比較して、学習されたモデルによって生成された経験を使用する利点を可能な限り分離するために、他の要因を制御するように注意します。

要約(オリジナル)

Model-Based Reinforcement Learning (RL) is widely believed to have the potential to improve sample efficiency by allowing an agent to synthesize large amounts of imagined experience. Experience Replay (ER) can be considered a simple kind of model, which has proved effective at improving the stability and efficiency of deep RL. In principle, a learned parametric model could improve on ER by generalizing from real experience to augment the dataset with additional plausible experience. However, given that learned value functions can also generalize, it is not immediately obvious why model generalization should be better. Here, we provide theoretical and empirical insight into when, and how, we can expect data generated by a learned model to be useful. First, we provide a simple theorem motivating how learning a model as an intermediate step can narrow down the set of possible value functions more than learning a value function directly from data using the Bellman equation. Second, we provide an illustrative example showing empirically how a similar effect occurs in a more concrete setting with neural network function approximation. Finally, we provide extensive experiments showing the benefit of model-based learning for online RL in environments with combinatorial complexity, but factored structure that allows a learned model to generalize. In these experiments, we take care to control for other factors in order to isolate, insofar as possible, the benefit of using experience generated by a learned model relative to ER alone.

arxiv情報

著者 Kenny Young,Aditya Ramesh,Louis Kirsch,Jürgen Schmidhuber
発行日 2023-07-10 16:07:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク