要約
私たちは、ポリシーのトレーニング環境と導入環境が異なるオフダイナミクス強化学習 (RL) を研究しています。
この環境の摂動に対処するために、私たちは分布的に堅牢なマルコフ決定プロセス (DRMDP) の枠組みの下で、遷移ダイナミクスの不確実性に対してロバストな学習政策に焦点を当てます。DRMDP では、名目ダイナミクスと摂動ダイナミクスは線形マルコフ決定プロセスです。
我々は、平均的な準最適性を享受する新しいアルゴリズム We-DRIVE-U を提案します $\widetilde{\mathcal{O}}\big({d H \cdot \min \{1/{\rho}, H\}/\sqrt
{K} }\big)$、ここで、$K$ はエピソード数、$H$ は水平線の長さ、$d$ は特徴の次元、$\rho$ は不確実性レベルです。
この結果は、最先端技術を $\mathcal{O}(dH/\min\{1/\rho,H\})$ 改善します。
また、新しいハード インスタンスを構築し、この設定で最初の情報理論的な下限を導出します。これは、アルゴリズムが任意の不確実性レベル $\ に対して $\mathcal{O}(\sqrt{H})$ まで最適に近いことを示しています。
rho\in(0,1]$。私たちのアルゴリズムは「まれなスイッチング」設計も採用しているため、$\mathcal{O}(dH\log(1+H^2K))$ ポリシー スイッチと $\ のみが必要です。
mathcal{O}(d^2H\log(1+H^2K))$ は二重最適化問題を解くために Oracle を要求します。これにより、ポリシースイッチと Oracle の複雑さは両方とも $\ である DRMDP の既存のアルゴリズムの計算効率が大幅に向上します。
数学{O}(K)$。
要約(オリジナル)
We study off-dynamics Reinforcement Learning (RL), where the policy training and deployment environments are different. To deal with this environmental perturbation, we focus on learning policies robust to uncertainties in transition dynamics under the framework of distributionally robust Markov decision processes (DRMDPs), where the nominal and perturbed dynamics are linear Markov Decision Processes. We propose a novel algorithm We-DRIVE-U that enjoys an average suboptimality $\widetilde{\mathcal{O}}\big({d H \cdot \min \{1/{\rho}, H\}/\sqrt{K} }\big)$, where $K$ is the number of episodes, $H$ is the horizon length, $d$ is the feature dimension and $\rho$ is the uncertainty level. This result improves the state-of-the-art by $\mathcal{O}(dH/\min\{1/\rho,H\})$. We also construct a novel hard instance and derive the first information-theoretic lower bound in this setting, which indicates our algorithm is near-optimal up to $\mathcal{O}(\sqrt{H})$ for any uncertainty level $\rho\in(0,1]$. Our algorithm also enjoys a ‘rare-switching’ design, and thus only requires $\mathcal{O}(dH\log(1+H^2K))$ policy switches and $\mathcal{O}(d^2H\log(1+H^2K))$ calls for oracle to solve dual optimization problems, which significantly improves the computational efficiency of existing algorithms for DRMDPs, whose policy switch and oracle complexities are both $\mathcal{O}(K)$.
arxiv情報
著者 | Zhishuai Liu,Weixin Wang,Pan Xu |
発行日 | 2024-09-30 17:21:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google