Distributionally Robust Model-based Reinforcement Learning with Large State Spaces

要約

強化学習における 3 つの主要な課題は、大規模な状態空間を持つ複雑な動的システム、コストのかかるデータ取得プロセス、およびトレーニング環境の展開からの現実世界のダイナミクスの逸脱です。
これらの問題を克服するために、広く使用されているカルバック・ライブラー、カイ二乗、および総変動の不確実性セットの下で、連続状態空間を使用した分布的に堅牢なマルコフ決定プロセスを研究します。
我々は、ガウス過程と最大分散低減アルゴリズムを利用して、生成モデル(つまり、シミュレーター)へのアクセスを活用して、複数出力の名目遷移ダイナミクスを効率的に学習するモデルベースのアプローチを提案します。
さらに、さまざまな不確実性セットに対する提案された方法の統計サンプルの複雑さを実証します。
これらの複雑さの限界は状態の数とは独立しており、線形ダイナミクスを超えて拡張され、最適に近い分布的に堅牢なポリシーを特定する際のアプローチの有効性が保証されます。
提案された方法は、他のモデルフリーの分布的にロバストな強化学習方法とさらに組み合わせて、最適に近いロバストなポリシーを取得できます。
実験結果は、分布シフトに対するアルゴリズムの堅牢性と、必要なサンプル数の点で優れたパフォーマンスを示しています。

要約(オリジナル)

Three major challenges in reinforcement learning are the complex dynamical systems with large state spaces, the costly data acquisition processes, and the deviation of real-world dynamics from the training environment deployment. To overcome these issues, we study distributionally robust Markov decision processes with continuous state spaces under the widely used Kullback-Leibler, chi-square, and total variation uncertainty sets. We propose a model-based approach that utilizes Gaussian Processes and the maximum variance reduction algorithm to efficiently learn multi-output nominal transition dynamics, leveraging access to a generative model (i.e., simulator). We further demonstrate the statistical sample complexity of the proposed method for different uncertainty sets. These complexity bounds are independent of the number of states and extend beyond linear dynamics, ensuring the effectiveness of our approach in identifying near-optimal distributionally-robust policies. The proposed method can be further combined with other model-free distributionally robust reinforcement learning methods to obtain a near-optimal robust policy. Experimental results demonstrate the robustness of our algorithm to distributional shifts and its superior performance in terms of the number of samples needed.

arxiv情報

著者 Shyam Sundhar Ramesh,Pier Giuseppe Sessa,Yifan Hu,Andreas Krause,Ilija Bogunovic
発行日 2023-09-05 13:42:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク