要約
マルコフ決定プロセス (MDP) におけるモデルベースの強化学習 (MBRL) の多くの手法は、提供できるモデルの精度と学習効率の両方を保証します。
同時に、状態抽象化技術により、元の問題に対する有限損失を維持しながら、MDP のサイズを削減できます。
したがって、両方の技術を組み合わせた場合、つまり MBRL が単に抽象状態を観察する場合、そのような保証が利用できないことは驚くべきかもしれません。
私たちの理論的分析は、抽象化によってオンライン (現実世界など) で収集されたサンプル間に依存性が生じる可能性があることを示しています。
つまり、この依存性を考慮しないと、MBRL の結果はこの設定に直接拡張されません。
私たちの結果は、マーチンゲールの濃度不等式を使用してこの問題を克服できることを示しています。
この結果により、既存の MBRL アルゴリズムの保証を抽象化を使用して設定に拡張することが可能になります。
これを、典型的な MBRL アルゴリズムである R-MAX と抽象化を組み合わせることによって説明します。これにより、モデルベースの「抽象化された観測からの RL」、つまり抽象モデルを使用したモデルベースの強化学習の最初のパフォーマンス保証が得られます。
要約(オリジナル)
Many methods for Model-based Reinforcement learning (MBRL) in Markov decision processes (MDPs) provide guarantees for both the accuracy of the model they can deliver and the learning efficiency. At the same time, state abstraction techniques allow for a reduction of the size of an MDP while maintaining a bounded loss with respect to the original problem. Therefore, it may come as a surprise that no such guarantees are available when combining both techniques, i.e., where MBRL merely observes abstract states. Our theoretical analysis shows that abstraction can introduce a dependence between samples collected online (e.g., in the real world). That means that, without taking this dependence into account, results for MBRL do not directly extend to this setting. Our result shows that we can use concentration inequalities for martingales to overcome this problem. This result makes it possible to extend the guarantees of existing MBRL algorithms to the setting with abstraction. We illustrate this by combining R-MAX, a prototypical MBRL algorithm, with abstraction, thus producing the first performance guarantees for model-based `RL from Abstracted Observations’: model-based reinforcement learning with an abstract model.
arxiv情報
著者 | Rolf A. N. Starre,Marco Loog,Elena Congeduti,Frans A. Oliehoek |
発行日 | 2023-08-29 12:21:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google