Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithm

要約

シミュレーションとリアルのギャップは、訓練環境とテスト環境の間の格差を表し、強化学習(RL)において重要な課題となっている。この課題に対処する有望なアプローチは、分布的にロバストなRLであり、しばしばロバストなマルコフ決定過程(RMDP)として枠組みされる。このフレームワークでは、学習環境を中心とした事前に指定された不確実性集合の中で、全ての環境の中で最悪のシナリオの下で良好な性能を達成するロバストポリシーを見つけることが目的である。従来の研究では、生成モデルや事前に収集されたオフラインデータセットが展開環境の良好なカバレッジを享受していたのとは異なり、我々は、学習者が訓練環境のみと対話し、試行錯誤を通じてポリシーを改良する対話的データ収集を通じて、ロバストRLに取り組む。このロバストRLパラダイムでは、分布のロバスト性を管理することと、データ収集中の探索と利用のバランスを取るという2つの主要な課題が現れる。最初に、我々は、サポートシフトの呪い、すなわち、訓練環境とテスト環境の間の分布サポートの潜在的なばらつきのために、追加的な仮定なしにサンプル効率の良い学習が達成不可能であることを立証する。このようなハードネス結果を回避するために、我々は全変動(TV)距離ロバスト集合を持つRMDPに最小値消失仮定を導入し、最適ロバスト値関数の最小値がゼロであることを仮定する。この仮定により、TV距離ロバスト集合を持つRMDPのサポートシフト問題が効果的に解消されることを証明し、証明可能なサンプル複雑さ保証を持つアルゴリズムを提示する。我々の研究は、対話的なデータ収集と、鋭い標本複雑度解析を伴う標本効率の良いアルゴリズムを設計するための十分条件によって、ロバストRLの本質的な難しさを明らかにするための最初の一歩を踏み出した。

要約(オリジナル)

The sim-to-real gap, which represents the disparity between training and testing environments, poses a significant challenge in reinforcement learning (RL). A promising approach to addressing this challenge is distributionally robust RL, often framed as a robust Markov decision process (RMDP). In this framework, the objective is to find a robust policy that achieves good performance under the worst-case scenario among all environments within a pre-specified uncertainty set centered around the training environment. Unlike previous work, which relies on a generative model or a pre-collected offline dataset enjoying good coverage of the deployment environment, we tackle robust RL via interactive data collection, where the learner interacts with the training environment only and refines the policy through trial and error. In this robust RL paradigm, two main challenges emerge: managing distributional robustness while striking a balance between exploration and exploitation during data collection. Initially, we establish that sample-efficient learning without additional assumptions is unattainable owing to the curse of support shift; i.e., the potential disjointedness of the distributional supports between the training and testing environments. To circumvent such a hardness result, we introduce the vanishing minimal value assumption to RMDPs with a total-variation (TV) distance robust set, postulating that the minimal value of the optimal robust value function is zero. We prove that such an assumption effectively eliminates the support shift issue for RMDPs with a TV distance robust set, and present an algorithm with a provable sample complexity guarantee. Our work makes the initial step to uncovering the inherent difficulty of robust RL via interactive data collection and sufficient conditions for designing a sample-efficient algorithm accompanied by sharp sample complexity analysis.

arxiv情報

著者 Miao Lu,Han Zhong,Tong Zhang,Jose Blanchet
発行日 2024-04-04 16:40:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク