Finding Safe Zones of policies Markov Decision Processes

要約

マルコフ決定プロセスのポリシーが与えられた場合、セーフゾーンを状態のサブセットとして定義し、ポリシーの軌跡のほとんどがこのサブセットに限定されるようにします。
SafeZone の品質は、状態の数と脱出確率、つまりランダムな軌道がサブセットから外れる確率によってパラメータ化されます。
セーフゾーンは、状態の数が少なく、脱出確率が低い場合に特に興味深いものです。
私たちは、最適なセーフゾーンを見つける複雑さを研究し、一般にこの問題は計算的に難しいことを示しました。
私たちの主な結果は、多項式サイズのサンプルの複雑さを使用して、脱出確率とセーフゾーン サイズの両方についてほぼ $2$ の近似係数を備えた二基準近似学習アルゴリズムです。

要約(オリジナル)

Given a policy of a Markov Decision Process, we define a SafeZone as a subset of states, such that most of the policy’s trajectories are confined to this subset. The quality of a SafeZone is parameterized by the number of states and the escape probability, i.e., the probability that a random trajectory will leave the subset. SafeZones are especially interesting when they have a small number of states and low escape probability. We study the complexity of finding optimal SafeZones, and show that in general, the problem is computationally hard. Our main result is a bi-criteria approximation learning algorithm with a factor of almost $2$ approximation for both the escape probability and SafeZone size, using a polynomial size sample complexity.

arxiv情報

著者 Lee Cohen,Yishay Mansour,Michal Moshkovitz
発行日 2023-10-09 17:48:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DS, cs.LG, stat.ML パーマリンク