Robust Markov Decision Processes without Model Estimation

要約

堅牢なマルコフ意思決定プロセス (MDP) は、環境変化の影響を受けにくい堅牢なポリシーを学習する上で多くの注目を集めています。
堅牢な MDP のサンプル効率を分析する研究が増えています。
ただし、堅牢な MDP を実際に適用するには、2 つの大きな障壁があります。
まず、ほとんどの研究はモデルベースの領域でロバストな MDP を研究していますが、遷移確率を推定する必要があり、大量のメモリが必要です $\mathcal{O}(|\mathcal{S}|^2|\mathcal{A
}|)$。
第 2 に、従来の研究では通常、堅牢な MDP を解決するための中間ステップとして、最適解を取得するための強力なオラクルが想定されています。
しかし、実際にはそのような神託は通常存在しません。
オラクルを削除するには、元のロバストな MDP を別の形式に変換します。これにより、確率的勾配法を使用してロバストな MDP を解決できるようになります。
さらに、代替形式でも元の形式と同様の役割を果たしていることを証明します。
この新しい定式化を使用して、モデルフリー領域で堅牢な MDP を解くためのサンプル効率の高いアルゴリズムを考案します。これは、オラクルを必要とせず、より低いストレージ要件と引き換えに $\mathcal{O}(|\mathcal{S}
||\mathcal{A}|)$ により、生成モデルまたはマルコフ連鎖からサンプルを生成できます。
最後に、数値実験を通じて理論的発見を検証し、堅牢な MDP の代替形式による効率を示します。

要約(オリジナル)

Robust Markov Decision Processes (MDPs) are receiving much attention in learning a robust policy which is less sensitive to environment changes. There are an increasing number of works analyzing sample-efficiency of robust MDPs. However, there are two major barriers to applying robust MDPs in practice. First, most works study robust MDPs in a model-based regime, where the transition probability needs to be estimated and requires a large amount of memories $\mathcal{O}(|\mathcal{S}|^2|\mathcal{A}|)$. Second, prior work typically assumes a strong oracle to obtain the optimal solution as an intermediate step to solve robust MDPs. However, in practice, such an oracle does not exist usually. To remove the oracle, we transform the original robust MDPs into an alternative form, which allows us to use stochastic gradient methods to solve the robust MDPs. Moreover, we prove the alternative form still plays a similar role as the original form. With this new formulation, we devise a sample-efficient algorithm to solve the robust MDPs in a model-free regime, which does not require an oracle and trades off a lower storage requirement $\mathcal{O}(|\mathcal{S}||\mathcal{A}|)$ with being able to generate samples from a generative model or Markovian chain. Finally, we validate our theoretical findings via numerical experiments, showing the efficiency with the alternative form of robust MDPs.

arxiv情報

著者 Wenhao Yang,Han Wang,Tadashi Kozuno,Scott M. Jordan,Zhihua Zhang
発行日 2023-09-12 16:20:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク