Robust $Q$-learning Algorithm for Markov Decision Processes under Wasserstein Uncertainty

要約

我々は、分布的に堅牢なマルコフ決定問題を解決するために調整された新しい $Q$ 学習アルゴリズムを提案します。ここで、基礎となるマルコフ決定プロセスの遷移確率の対応する曖昧さのセットは、(おそらく推定された) 参照尺度の周りのワッサースタイン ボールです。
提示されたアルゴリズムの収束を証明し、実データを使用したいくつかの例を提供して、アルゴリズムの扱いやすさと、確率的最適制御問題を解く際、特に推定分布が誤って指定されていることが判明した場合に分布のロバスト性を考慮する利点の両方を説明します。
実際には。

要約(オリジナル)

We present a novel $Q$-learning algorithm tailored to solve distributionally robust Markov decision problems where the corresponding ambiguity set of transition probabilities for the underlying Markov decision process is a Wasserstein ball around a (possibly estimated) reference measure. We prove convergence of the presented algorithm and provide several examples also using real data to illustrate both the tractability of our algorithm as well as the benefits of considering distributional robustness when solving stochastic optimal control problems, in particular when the estimated distributions turn out to be misspecified in practice.

arxiv情報

著者 Ariel Neufeld,Julian Sester
発行日 2024-06-20 15:50:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC, math.PR, stat.ML パーマリンク