Diminishing Return of Value Expansion Methods in Model-Based Reinforcement Learning

要約

モデルベースの強化学習は、サンプル効率を高める 1 つのアプローチです。
ただし、ダイナミクス モデルの精度と、モデル化された軌跡に対する複合エラーは、一般的に重要な制限と見なされます。
当然の質問として、「学習したダイナミクス モデルを改善することで、サンプル効率がどれだけ向上するか?」という質問があります。
私たちの論文は、連続制御問題におけるモデルベースの値展開法のクラスについて、この質問に経験的に答えています。
価値拡大方法は、より長い展開期間とより良い価値関数の近似を可能にすることにより、モデルの精度が向上することから恩恵を受けるはずです。
オラクル ダイナミクス モデルを活用してモデル エラーの複合化を回避する当社の実証研究では、(1) 期間が長くなるとサンプル効率が向上しますが、拡張ステップが追加されるたびに改善のゲインが減少し、(2) モデルの精度が向上しても、
同一の視野を持つ学習モデルと比較したサンプル効率。
したがって、期間が長くなり、モデルの精度が向上すると、サンプル効率の点で収穫逓減が生じます。
サンプル効率のこれらの改善は、モデルを使用しない値拡張方法と比較すると、特に残念です。
計算上のオーバーヘッドは発生しませんが、そのパフォーマンスはモデルベースの値拡張メソッドと同等であることがわかりました。
したがって、モデルベースの値拡張方法の限界は、学習したモデルのモデル精度ではないと結論付けます。
モデルの精度が高いことは有益ですが、私たちの実験では、完璧なモデルでも比類のないサンプル効率が得られるわけではなく、ボトルネックは別の場所にあることが示されています。

要約(オリジナル)

Model-based reinforcement learning is one approach to increase sample efficiency. However, the accuracy of the dynamics model and the resulting compounding error over modelled trajectories are commonly regarded as key limitations. A natural question to ask is: How much more sample efficiency can be gained by improving the learned dynamics models? Our paper empirically answers this question for the class of model-based value expansion methods in continuous control problems. Value expansion methods should benefit from increased model accuracy by enabling longer rollout horizons and better value function approximations. Our empirical study, which leverages oracle dynamics models to avoid compounding model errors, shows that (1) longer horizons increase sample efficiency, but the gain in improvement decreases with each additional expansion step, and (2) the increased model accuracy only marginally increases the sample efficiency compared to learned models with identical horizons. Therefore, longer horizons and increased model accuracy yield diminishing returns in terms of sample efficiency. These improvements in sample efficiency are particularly disappointing when compared to model-free value expansion methods. Even though they introduce no computational overhead, we find their performance to be on-par with model-based value expansion methods. Therefore, we conclude that the limitation of model-based value expansion methods is not the model accuracy of the learned models. While higher model accuracy is beneficial, our experiments show that even a perfect model will not provide an un-rivalled sample efficiency but that the bottleneck lies elsewhere.

arxiv情報

著者 Daniel Palenicek,Michael Lutter,Joao Carvalho,Jan Peters
発行日 2023-03-07 15:01:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク