Local Linearity: the Key for No-regret Reinforcement Learning in Continuous MDPs

要約

連続状態およびアクション空間環境における強化学習 (RL) 問題のノーリグレット特性の達成は、この分野での主要な未解決問題の 1 つです。
既存のソリューションは、非常に特殊な仮定の下で機能するか、一部の体制では空虚な限界を達成します。
さらに、多くの構造的仮定は、残念ながら時間軸 $H$ に対する明らかに避けられない指数関数的な依存性を抱えていることが知られており、これにより、考えられる解決策は実際には実行不可能になります。
この論文では、マルコフ決定プロセス (MDP) を学習可能 (線形未満のリグレット) かつ実行可能 ($H$ の多項式であるリグレット) にする特徴として局所線形性を特定します。
新しい MDP 表現クラス、つまり局所的に線形化可能な MDP を定義し、線形 MDP や固有のベルマン誤差が低い MDPS などの他の表現クラスを一般化します。
次に、i) この一般表現クラスの後悔のないアルゴリズムである Cinderella を導入し、ii) 既知の学習可能および実行可能なすべての MDP ファミリがこのクラスで表現可能であることを示します。
まず、既知の実行可能な MDP はすべて、Mildly Smooth MDP と呼ばれるファミリーに属していることを示します。
次に、表現の適切な選択によって、穏やかに滑らかな MDP を局所的に線形化可能な MDP として表現できる方法を示します。
このようにして、シンデレラは、RL が学習可能で実行可能な、これまでに知られている (およびいくつかの新しい) 連続 MDP のすべてについて、最先端のリグレス限界を達成することが示されています。

要約(オリジナル)

Achieving the no-regret property for Reinforcement Learning (RL) problems in continuous state and action-space environments is one of the major open problems in the field. Existing solutions either work under very specific assumptions or achieve bounds that are vacuous in some regimes. Furthermore, many structural assumptions are known to suffer from a provably unavoidable exponential dependence on the time horizon $H$ in the regret, which makes any possible solution unfeasible in practice. In this paper, we identify local linearity as the feature that makes Markov Decision Processes (MDPs) both learnable (sublinear regret) and feasible (regret that is polynomial in $H$). We define a novel MDP representation class, namely Locally Linearizable MDPs, generalizing other representation classes like Linear MDPs and MDPS with low inherent Belmman error. Then, i) we introduce Cinderella, a no-regret algorithm for this general representation class, and ii) we show that all known learnable and feasible MDP families are representable in this class. We first show that all known feasible MDPs belong to a family that we call Mildly Smooth MDPs. Then, we show how any mildly smooth MDP can be represented as a Locally Linearizable MDP by an appropriate choice of representation. This way, Cinderella is shown to achieve state-of-the-art regret bounds for all previously known (and some new) continuous MDPs for which RL is learnable and feasible.

arxiv情報

著者 Davide Maran,Alberto Maria Metelli,Matteo Papini,Marcello Restelli
発行日 2024-10-31 16:07:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク