要約
この論文では、分布的にロバストなオフライン強化学習 (ロバスト オフライン RL) を研究します。これは、摂動環境でも適切に実行できる最適なポリシーを純粋にオフライン データセットから見つけようとします。
具体的には、二重悲観的モデルベースのポリシー最適化 ($P^2MPO$) と呼ばれる汎用アルゴリズム フレームワークを提案します。これは、柔軟なモデル推定サブルーチンと二重悲観的ポリシー最適化ステップの新しい組み合わせを特徴としています。
特に、二重悲観主義の原則は、(i)行動政策と目標政策の間の不一致によって引き起こされる分布の変化を克服するために重要です。
(ii) 公称モデルの摂動。
モデル推定サブルーチンの特定の精度条件下では、$P^2MPO$ がロバストな部分カバレッジ データを使用してサンプル効率的であることを証明します。これには、オフライン データが最適なロバスト ポリシーと摂動によって引き起こされる分布を良好にカバレッジすることのみが必要です。
公称モデル付近のモデル。
表形式 RMDP、因数分解 RMDP、カーネルおよびニューラル RMDP を含む RMDP の具体的な例に合わせて特定のモデル推定サブルーチンを調整することにより、$P^2MPO$ が $\tilde{\mathcal{O}}(n^{-1) を享受できることを証明します。
/2})$ 収束率。$n$ はデータセットのサイズです。
表形式の RMDP を除くこれらすべての例は、この研究によって初めて特定され、扱いやすいことが証明されたことを強調します。
さらに、ロバストなマルコフ ゲーム (RMG) におけるロバストなオフライン RL の研究を続けます。
シングルエージェントRMDPで特定された二重悲観原理を拡張することにより、堅牢な片側(部分)カバレッジデータのみを使用してプレーヤー間の堅牢なナッシュ均衡を効率的に見つけることができる別のアルゴリズムフレームワークを提案します。
私たちの知る限り、この研究は、ロバストなオフライン RL のための最初の一般的な学習原理である二重悲観論を提案し、それが一般的な関数近似で効率的であることが証明されていることを示しています。
要約(オリジナル)
In this paper, we study distributionally robust offline reinforcement learning (robust offline RL), which seeks to find an optimal policy purely from an offline dataset that can perform well in perturbed environments. In specific, we propose a generic algorithm framework called Doubly Pessimistic Model-based Policy Optimization ($P^2MPO$), which features a novel combination of a flexible model estimation subroutine and a doubly pessimistic policy optimization step. Notably, the double pessimism principle is crucial to overcome the distributional shifts incurred by (i) the mismatch between the behavior policy and the target policies; and (ii) the perturbation of the nominal model. Under certain accuracy conditions on the model estimation subroutine, we prove that $P^2MPO$ is sample-efficient with robust partial coverage data, which only requires the offline data to have good coverage of the distributions induced by the optimal robust policy and the perturbed models around the nominal model. By tailoring specific model estimation subroutines for concrete examples of RMDPs, including tabular RMDPs, factored RMDPs, kernel and neural RMDPs, we prove that $P^2MPO$ enjoys a $\tilde{\mathcal{O}}(n^{-1/2})$ convergence rate, where $n$ is the dataset size. We highlight that all these examples, except tabular RMDPs, are first identified and proven tractable by this work. Furthermore, we continue our study of robust offline RL in the robust Markov games (RMGs). By extending the double pessimism principle identified for single-agent RMDPs, we propose another algorithm framework that can efficiently find the robust Nash equilibria among players using only robust unilateral (partial) coverage data. To our best knowledge, this work proposes the first general learning principle — double pessimism — for robust offline RL and shows that it is provably efficient with general function approximation.
arxiv情報
著者 | Jose Blanchet,Miao Lu,Tong Zhang,Han Zhong |
発行日 | 2023-08-22 14:23:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google