Online RL in Linearly $q^π$-Realizable MDPs Is as Easy as in Linear MDPs If You Learn What to Ignore

要約

線形 $q^\pi$-実現可能性仮定の下で、エピソード的なマルコフ決定プロセス (MDP) におけるオンライン強化学習 (RL) を検討します。ここでは、すべての政策の行動価値は状態の線形関数として表現できると仮定されます。
アクション機能。
このクラスは、遷移カーネルと報酬関数が特徴ベクトルの線形関数であると想定される線形 MDP よりも一般的であることが知られています。
最初の貢献として、2 つのクラスの違いは線形 $q^\pi$ 実現可能な MDP の状態の存在であり、どのポリシーでもすべてのアクションがほぼ等しい値を持ち、次のようにこれらの状態をスキップすることを示します。
これらの州で恣意的に固定された政策は、問題を線形 MDP に変換します。
この観察に基づいて、線形 $q^\pi$ 実現可能な MDP のための新しい (計算効率の悪い) 学習アルゴリズムを導出します。このアルゴリズムは、どの状態をスキップすべきかを同時に学習し、問題に隠れている線形 MDP に対して別の学習アルゴリズムを実行します。
このメソッドは、MDP との $\text{polylog}(H, d)/\epsilon^2$ の対話後に $\epsilon$-optimal ポリシーを返します。ここで、$H$ は時間軸、$d$ は時間軸です。
特徴ベクトル。この設定に対して最初の多項式サンプル複雑度のオンライン RL アルゴリズムが与えられます。
結果は、指定ミスの場合について証明されており、サンプルの複雑さは指定ミスのエラーによって順調に低下することが示されています。

要約(オリジナル)

We consider online reinforcement learning (RL) in episodic Markov decision processes (MDPs) under the linear $q^\pi$-realizability assumption, where it is assumed that the action-values of all policies can be expressed as linear functions of state-action features. This class is known to be more general than linear MDPs, where the transition kernel and the reward function are assumed to be linear functions of the feature vectors. As our first contribution, we show that the difference between the two classes is the presence of states in linearly $q^\pi$-realizable MDPs where for any policy, all the actions have approximately equal values, and skipping over these states by following an arbitrarily fixed policy in those states transforms the problem to a linear MDP. Based on this observation, we derive a novel (computationally inefficient) learning algorithm for linearly $q^\pi$-realizable MDPs that simultaneously learns what states should be skipped over and runs another learning algorithm on the linear MDP hidden in the problem. The method returns an $\epsilon$-optimal policy after $\text{polylog}(H, d)/\epsilon^2$ interactions with the MDP, where $H$ is the time horizon and $d$ is the dimension of the feature vectors, giving the first polynomial-sample-complexity online RL algorithm for this setting. The results are proved for the misspecified case, where the sample complexity is shown to degrade gracefully with the misspecification error.

arxiv情報

著者 Gellért Weisz,András György,Csaba Szepesvári
発行日 2023-12-20 18:09:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク