Provably Efficient Neural Offline Reinforcement Learning via Perturbed Rewards

要約

新しいオフライン強化学習 (RL) アルゴリズム、つまり、ランダム化された値関数のアイデアと悲観主義の原則を融合させた、摂動報酬を伴う値反復 (VIPeR) を提案します。
現在のほとんどのオフライン RL アルゴリズムは、統計的信頼領域を明示的に構築して、下限信頼限界 (LCB) を介して悲観論を取得します。これは、ニューラル ネットワークを使用して値関数を推定する複雑な問題に簡単にスケーリングすることはできません。
代わりに、VIPeR は、慎重に設計された i.i.d ガウス ノイズを使用してオフライン データを複数回単純に摂動して、推定された状態アクション値のアンサンブルを学習し、アンサンブルの最小値に対して貪欲に行動することにより、暗黙的に悲観論を取得します。
推定状態アクション値は、勾配降下法を使用して摂動データセットにパラメトリック モデル (ニューラル ネットワークなど) を適合させることによって取得されます。
その結果、VIPeR はアクション選択に $\mathcal{O}(1)$ 時間の複雑さしか必要としませんが、LCB ベースのアルゴリズムは少なくとも $\Omega(K^2)$ を必要とします。ここで、$K$ は軌跡の総数です。
オフラインデータで。
また、学習境界で潜在的に大きなログカバリング数を取り除くのに役立つ新しいデータ分割手法も提案します。
VIPeR が過剰にパラメータ化されたニューラル ネットワークを使用して証明可能な不確実性数量化子を生成し、 $\tilde{\mathcal{O}}\left( \frac{ \kappa H^{5/2} \tilde{d} }{\sqrt を達成することを証明します。
{K}} \right)$ 準最適性 $\tilde{d}$ は有効次元、$H$ は地平線の長さ、$\kappa$ は分布シフトを測定します。
VIPeR の統計的および計算効率を、幅広い合成データセットおよび現実世界のデータセットにおける経験的評価で裏付けています。
私たちの知る限りでは、VIPeR は、ニューラル ネットワーク関数近似を使用した一般的なマルコフ決定プロセス (MDP) で証明可能かつ計算効率の高い最初のオフライン RL アルゴリズムです。

要約(オリジナル)

We propose a novel offline reinforcement learning (RL) algorithm, namely Value Iteration with Perturbed Rewards (VIPeR) which amalgamates the randomized value function idea with the pessimism principle. Most current offline RL algorithms explicitly construct statistical confidence regions to obtain pessimism via lower confidence bounds (LCB), which cannot easily scale to complex problems where a neural network is used to estimate the value functions. Instead, VIPeR implicitly obtains pessimism by simply perturbing the offline data multiple times with carefully-designed i.i.d Gaussian noises to learn an ensemble of estimated state-action values and acting greedily to the minimum of the ensemble. The estimated state-action values are obtained by fitting a parametric model (e.g. neural networks) to the perturbed datasets using gradient descent. As a result, VIPeR only needs $\mathcal{O}(1)$ time complexity for action selection while LCB-based algorithms require at least $\Omega(K^2)$, where $K$ is the total number of trajectories in the offline data. We also propose a novel data splitting technique that helps remove the potentially large log covering number in the learning bound. We prove that VIPeR yields a provable uncertainty quantifier with overparameterized neural networks and achieves an $\tilde{\mathcal{O}}\left( \frac{ \kappa H^{5/2} \tilde{d} }{\sqrt{K}} \right)$ sub-optimality where $\tilde{d}$ is the effective dimension, $H$ is the horizon length and $\kappa$ measures the distributional shift. We corroborate the statistical and computational efficiency of VIPeR with an empirical evaluation in a wide set of synthetic and real-world datasets. To the best of our knowledge, VIPeR is the first offline RL algorithm that is both provably and computationally efficient in general Markov decision processes (MDPs) with neural network function approximation.

arxiv情報

著者 Thanh Nguyen-Tang,Raman Arora
発行日 2023-02-24 17:52:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク