Robust $Q$-learning Algorithm for Markov Decision Processes under Wasserstein Uncertainty


我々は、分布的に堅牢なマルコフ決定問題を解決するために調整された新しい $Q$ 学習アルゴリズムを提案します。ここで、基礎となるマルコフ決定プロセスの遷移確率の対応する曖昧さのセットは、(おそらく推定された) 参照尺度の周りのワッサースタイン ボールです。


We present a novel $Q$-learning algorithm tailored to solve distributionally robust Markov decision problems where the corresponding ambiguity set of transition probabilities for the underlying Markov decision process is a Wasserstein ball around a (possibly estimated) reference measure. We prove convergence of the presented algorithm and provide several examples also using real data to illustrate both the tractability of our algorithm as well as the benefits of considering distributional robustness when solving stochastic optimal control problems, in particular when the estimated distributions turn out to be misspecified in practice.


著者 Ariel Neufeld,Julian Sester
発行日 2024-06-20 15:50:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, math.OC, math.PR, stat.ML パーマリンク