Demystifying Linear MDPs and Novel Dynamics Aggregation Framework

要約

この研究では、線形 MDP では、遷移確率を適切に表すために、特徴次元 $d$ が $S/U$ によって下限されることを証明します。ここで、$S$ は状態空間のサイズ、$U$ です。
直接到達可能な状態の最大サイズです。
したがって、環境の直接到達可能性に応じて、$d$ は $S$ に合わせて拡張できます。
線形 MDP のこの制限に対処するために、我々は、「ダイナミック アグリゲーション」と名付けられた、ダイナミクスに基づく新しい構造的アグリゲーション フレームワークを提案します。
この新しく提案されたフレームワークでは、集約された部分構造を利用する線形関数近似における効率的であることが証明されている階層型強化学習アルゴリズムを設計します。
私たちが提案したアルゴリズムは統計的効率を示し、$ \tilde{O} ( d_{\psi}^{3/2} H^{3/2}\sqrt{ N T} )$ の後悔を達成しました。ここで $d_{\psi
}$ は集約されたサブ MDP の機能ディメンションを表し、$N$ は集約されたサブ MDP の数を表します。
$d_{\psi}^3 N \ll d^{3}$ という条件は、階層構造を持つほとんどの実世界の環境で容易に満たされ、LSVI-UCB と比較してリグレス限界の大幅な改善が可能になることを証明します。
$ \tilde{O} (d^{3/2} H^{3/2} \sqrt{ T})$ の後悔を味わっています。
私たちの知る限り、この研究は、証明可能な保証を提供する線形関数近似を備えた最初の HRL アルゴリズムを示しています。

要約(オリジナル)

In this work, we prove that, in linear MDPs, the feature dimension $d$ is lower bounded by $S/U$ in order to aptly represent transition probabilities, where $S$ is the size of the state space and $U$ is the maximum size of directly reachable states. Hence, $d$ can still scale with $S$ depending on the direct reachability of the environment. To address this limitation of linear MDPs, we propose a novel structural aggregation framework based on dynamics, named as the ‘dynamics aggregation’. For this newly proposed framework, we design a provably efficient hierarchical reinforcement learning algorithm in linear function approximation that leverages aggregated sub-structures. Our proposed algorithm exhibits statistical efficiency, achieving a regret of $ \tilde{O} ( d_{\psi}^{3/2} H^{3/2}\sqrt{ N T} )$, where $d_{\psi}$ represents the feature dimension of aggregated subMDPs and $N$ signifies the number of aggregated subMDPs. We establish that the condition $d_{\psi}^3 N \ll d^{3}$ is readily met in most real-world environments with hierarchical structures, enabling a substantial improvement in the regret bound compared to LSVI-UCB, which enjoys a regret of $ \tilde{O} (d^{3/2} H^{3/2} \sqrt{ T})$. To the best of our knowledge, this work presents the first HRL algorithm with linear function approximation that offers provable guarantees.

arxiv情報

著者 Joongkyu Lee,Min-hwan Oh
発行日 2024-10-31 16:21:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク