要約
この研究では、通常の意思決定プロセス (RDP) と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習 (RL) を研究します。
RDP では、将来の観測と過去の相互作用からの報酬の未知の依存関係を、隠れた有限状態オートマトンによって捉えることができます。
このため、多くの RDP アルゴリズムは、最初にオートマトン学習技術を使用してこの未知の依存関係を再構築します。
この論文では、RDP 用の以前のオフライン RL アルゴリズム、特に RegORL の 2 つの強力な制限を克服できることを示します。
これは、2 つの独自の手法の導入によって実現できます。1 つは、$L_\infty^\mathsf{p}$-distinguishability パラメーターに対する問題のある依存関係を取り除く形式言語に基づく新しい擬似計量の開発、もう 1 つは Count-
素朴なカウントの代わりに Min-Sketch (CMS)。
前者は、言語理論的に言えば複雑さが低いことを特徴とする環境で必要なサンプルの数を減らします。
後者により、長い計画期間におけるメモリ要件が軽減されます。
これらの各手法に関連する PAC サンプルの複雑さの限界を導き出し、そのアプローチを実験的に検証します。
要約(オリジナル)
This work studies offline Reinforcement Learning (RL) in a class of non-Markovian environments called Regular Decision Processes (RDPs). In RDPs, the unknown dependency of future observations and rewards from the past interactions can be captured by some hidden finite-state automaton. For this reason, many RDP algorithms first reconstruct this unknown dependency using automata learning techniques. In this paper, we show that it is possible to overcome two strong limitations of previous offline RL algorithms for RDPs, notably RegORL. This can be accomplished via the introduction of two original techniques: the development of a new pseudometric based on formal languages, which removes a problematic dependency on $L_\infty^\mathsf{p}$-distinguishability parameters, and the adoption of Count-Min-Sketch (CMS), instead of naive counting. The former reduces the number of samples required in environments that are characterized by a low complexity in language-theoretic terms. The latter alleviates the memory requirements for long planning horizons. We derive the PAC sample complexity bounds associated to each of these techniques, and we validate the approach experimentally.
arxiv情報
著者 | Ahana Deb,Roberto Cipollone,Anders Jonsson,Alessandro Ronca,Mohammad Sadegh Talebi |
発行日 | 2024-09-04 14:26:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google