要約
変化する環境下での強化学習 (RL) は、非定常マルコフ決定プロセス (MDP) を介して多くの実世界のアプリケーションをモデル化するため、大きな関心を集めています。
しかし、文献における非定常 MDP に関する理論的研究は主に表形式および線形 (混合) MDP に焦点を当てており、深層 RL における未知の表現の性質を捉えていません。
この論文では、一時的な低ランク MDP の下で非定常 RL を調査する最初の試みを行います。この MDP では、遷移カーネルと報酬の両方が時間の経過とともに変化する可能性があり、低ランク モデルには線形状態埋め込み関数に加えて未知の表現が含まれています。
まず、PORTAL と呼ばれるパラメータ依存のポリシー最適化アルゴリズムを提案し、さらに PORTAL をパラメータなしバージョンの Ada-PORTAL に改良します。Ada-PORTAL は、非定常性の事前知識がなくてもハイパーパラメータを適応的に調整できます。
どちらのアルゴリズムでも、動的準最適ギャップの平均に上限を設けています。これは、非定常性が著しく大きくない限り、PORTAL と Ada-PORTAL はサンプル効率が高く、多項式サンプルの複雑さで任意に小さな平均動的準最適ギャップを達成できることを示しています。
。
要約(オリジナル)
Reinforcement learning (RL) under changing environment models many real-world applications via nonstationary Markov Decision Processes (MDPs), and hence gains considerable interest. However, theoretical studies on nonstationary MDPs in the literature have mainly focused on tabular and linear (mixture) MDPs, which do not capture the nature of unknown representation in deep RL. In this paper, we make the first effort to investigate nonstationary RL under episodic low-rank MDPs, where both transition kernels and rewards may vary over time, and the low-rank model contains unknown representation in addition to the linear state embedding function. We first propose a parameter-dependent policy optimization algorithm called PORTAL, and further improve PORTAL to its parameter-free version of Ada-PORTAL, which is able to tune its hyper-parameters adaptively without any prior knowledge of nonstationarity. For both algorithms, we provide upper bounds on the average dynamic suboptimality gap, which show that as long as the nonstationarity is not significantly large, PORTAL and Ada-PORTAL are sample-efficient and can achieve arbitrarily small average dynamic suboptimality gap with polynomial sample complexity.
arxiv情報
著者 | Yuan Cheng,Jing Yang,Yingbin Liang |
発行日 | 2023-08-10 09:52:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google