A Look at Value-Based Decision-Time vs. Background Planning Methods Across Different Settings


モデルベースの強化学習 (RL) では、エージェントは学習したモデルを活用して、さまざまな動作方法を改善できます。
これを行う一般的な方法の 2 つは、意思決定時およびバックグラウンド計画の方法を使用することです。
この研究では、これら 2 つの計画手法の価値ベースのバージョンが異なる設定でどのように相互に比較されるかを理解することに興味があります。
この目標に向けて、最初に値ベースの意思決定時間およびバックグラウンド計画手法の最も単純なインスタンス化を検討し、通常の RL および転移学習設定でどちらがより優れたパフォーマンスを発揮するかについての理論的結果を提供します。
全体として、私たちの調査結果は、2 つの計画手法の値ベースのバージョンが最も単純なインスタンス化では同等のパフォーマンスを発揮するとしても、価値ベースの意思決定時間計画手法の最新のインスタンス化は、価値の最新のインスタンス化と同等かそれ以上のパフォーマンスを発揮できることを示唆しています。
通常の RL 設定と転移学習設定の両方で、バックグラウンド プランニング手法に基づいています。


In model-based reinforcement learning (RL), an agent can leverage a learned model to improve its way of behaving in different ways. Two of the prevalent ways to do this are through decision-time and background planning methods. In this study, we are interested in understanding how the value-based versions of these two planning methods will compare against each other across different settings. Towards this goal, we first consider the simplest instantiations of value-based decision-time and background planning methods and provide theoretical results on which one will perform better in the regular RL and transfer learning settings. Then, we consider the modern instantiations of them and provide hypotheses on which one will perform better in the same settings. Finally, we perform illustrative experiments to validate these theoretical results and hypotheses. Overall, our findings suggest that even though value-based versions of the two planning methods perform on par in their simplest instantiations, the modern instantiations of value-based decision-time planning methods can perform on par or better than the modern instantiations of value-based background planning methods in both the regular RL and transfer learning settings.


著者 Safa Alver,Doina Precup
発行日 2024-08-12 11:17:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク