要約
私たちは、複雑な観測を伴う部分的に観測可能な環境におけるオフポリシー評価 (OPE) を研究し、その保証がホライズンへの指数関数的な依存を回避する推定量を開発することを目的としています。
このような推定器は MDP 用に存在し、POMDP は履歴ベースの MDP に変換できますが、その推定誤差は、変換後の履歴比となる MDP の状態密度比、つまり指数オブジェクトに依存します。
最近、上原ら。
(2022) は、この問題に対処するための有望なフレームワークとして、将来依存の価値関数を提案しました。このフレームワークでは、メモリレス ポリシーの保証は、潜在状態空間に対する密度比に依存します。
ただし、これは将来に依存する値関数とその他の関連量の境界にも依存し、長さが指数関数的になる可能性があるため、この方法の利点が失われる可能性があることを示しています。
この論文では、アウトカム カバレッジやビリーフ カバレッジなど、POMDP の構造に合わせた新しいカバレッジの仮定を発見します。
これらの仮定は、前述の量に対する多項式の境界を可能にするだけでなく、相補的な特性を持つ新しいアルゴリズムの発見にもつながります。
要約(オリジナル)
We study off-policy evaluation (OPE) in partially observable environments with complex observations, with the goal of developing estimators whose guarantee avoids exponential dependence on the horizon. While such estimators exist for MDPs and POMDPs can be converted to history-based MDPs, their estimation errors depend on the state-density ratio for MDPs which becomes history ratios after conversion, an exponential object. Recently, Uehara et al. (2022) proposed future-dependent value functions as a promising framework to address this issue, where the guarantee for memoryless policies depends on the density ratio over the latent state space. However, it also depends on the boundedness of the future-dependent value function and other related quantities, which we show could be exponential-in-length and thus erasing the advantage of the method. In this paper, we discover novel coverage assumptions tailored to the structure of POMDPs, such as outcome coverage and belief coverage. These assumptions not only enable polynomial bounds on the aforementioned quantities, but also lead to the discovery of new algorithms with complementary properties.
arxiv情報
著者 | Yuheng Zhang,Nan Jiang |
発行日 | 2024-02-22 17:00:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google