要約
私たちは、分布的にロバストなオフライン強化学習 (ロバスト オフライン RL) を研究します。これは、摂動環境でも適切に実行できる、純粋にオフライン データセットから最適でロバストなポリシーを見つけることを目指します。
私たちは、一般的なアルゴリズム フレームワーク \underline{D}oubly \underline{P}essimistic \underline{M}odel ベースの \underline{P}olicy \underline{O} 最適化 ($\texttt{P}^2\texttt{) を提案します。
MPO}$) は、柔軟なモデル推定サブルーチンと二重に悲観的なポリシー最適化ステップの新しい組み合わせを特徴とする、堅牢なオフライン RL 用です。
\emph{二重悲観}の原則は、i) 行動政策と一連の目標政策の間の不一致によって引き起こされる分布の変化を克服するために重要です。
ii) 公称モデルの摂動。
モデル推定サブルーチンに関する特定の精度の仮定の下では、$\texttt{P}^2\texttt{MPO}$ は \emph{堅牢な部分カバレッジ データ} を使用する場合に効率的であることが証明されています。これは、オフライン データセットが十分なカバレッジを持っていることを意味します。
最適なロバストポリシーと名目モデルの周りの摂動モデルによって引き起こされる分布。
表形式のロバスト マルコフ決定プロセス (RMDP)、因数分解 RMDP、カーネルおよびニューラル関数近似を使用した RMDP などの具体的な例に合わせて特定のモデル推定サブルーチンを調整することにより、$\texttt{P}^2\texttt{MPO}$ が
$\tilde{\mathcal{O}}(n^{-1/2})$ 収束率。$n$ はオフライン データセット内の軌跡の数です。
注目すべきことに、これらのモデルは、表形式の場合を除いて、この論文によって初めて特定され、扱いやすいことが証明されました。
私たちの知る限り、私たちはまず、ロバストなオフライン RL のための一般的な学習原理 (二重悲観論) を提案し、それが一般的な関数近似のコンテキストで効率的であることが証明されていることを示します。
要約(オリジナル)
We study distributionally robust offline reinforcement learning (robust offline RL), which seeks to find an optimal robust policy purely from an offline dataset that can perform well in perturbed environments. We propose a generic algorithm framework \underline{D}oubly \underline{P}essimistic \underline{M}odel-based \underline{P}olicy \underline{O}ptimization ($\texttt{P}^2\texttt{MPO}$) for robust offline RL, which features a novel combination of a flexible model estimation subroutine and a doubly pessimistic policy optimization step. The \emph{double pessimism} principle is crucial to overcome the distributional shift incurred by i) the mismatch between behavior policy and the family of target policies; and ii) the perturbation of the nominal model. Under certain accuracy assumptions on the model estimation subroutine, we show that $\texttt{P}^2\texttt{MPO}$ is provably efficient with \emph{robust partial coverage data}, which means that the offline dataset has good coverage of the distributions induced by the optimal robust policy and perturbed models around the nominal model. By tailoring specific model estimation subroutines for concrete examples including tabular Robust Markov Decision Process (RMDP), factored RMDP, and RMDP with kernel and neural function approximations, we show that $\texttt{P}^2\texttt{MPO}$ enjoys a $\tilde{\mathcal{O}}(n^{-1/2})$ convergence rate, where $n$ is the number of trajectories in the offline dataset. Notably, these models, except for the tabular case, are first identified and proven tractable by this paper. To the best of our knowledge, we first propose a general learning principle — double pessimism — for robust offline RL and show that it is provably efficient in the context of general function approximations.
arxiv情報
著者 | Jose Blanchet,Miao Lu,Tong Zhang,Han Zhong |
発行日 | 2023-05-16 17:58:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google