Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes

要約

オフライン強化学習 (RL) では、アクティブな探索が存在しないため、シミュレーションと実際のギャップに対処するためにモデルの堅牢性に注意を払う必要があります。シミュレーションされた環境とデプロイされた環境の間の不一致により、学習されたポリシーのパフォーマンスが大幅に損なわれる可能性があります。
高次元の状態行動空間の存在下でサンプル効率の高い方法で学習されたポリシーにロバスト性を与えるために、この論文では、全体の変動によって特徴付けられる不確実性セットを備えた、分布的にロバストな線形マルコフ決定プロセス (MDP) のサンプルの複雑さを考慮します。
オフラインデータを使用した距離。
我々は、悲観的なモデルベースのアルゴリズムを開発し、最小のデータカバレッジ仮定の下でそのサンプルの複雑さの限界を確立します。これは、従来技術を少なくとも $\tilde{O}(d)$ 上回ります。ここで、$d$ は特徴の次元です。
慎重に設計された分散推定器を組み込むことにより、提案されたアルゴリズムのパフォーマンス保証をさらに向上させます。

要約(オリジナル)

In offline reinforcement learning (RL), the absence of active exploration calls for attention on the model robustness to tackle the sim-to-real gap, where the discrepancy between the simulated and deployed environments can significantly undermine the performance of the learned policy. To endow the learned policy with robustness in a sample-efficient manner in the presence of high-dimensional state-action space, this paper considers the sample complexity of distributionally robust linear Markov decision processes (MDPs) with an uncertainty set characterized by the total variation distance using offline data. We develop a pessimistic model-based algorithm and establish its sample complexity bound under minimal data coverage assumptions, which outperforms prior art by at least $\tilde{O}(d)$, where $d$ is the feature dimension. We further improve the performance guarantee of the proposed algorithm by incorporating a carefully-designed variance estimator.

arxiv情報

著者 He Wang,Laixi Shi,Yuejie Chi
発行日 2024-03-19 17:48:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.TH パーマリンク