Distributional Offline Policy Evaluation with Predictive Error Guarantees

要約

我々は、政策から生成されないオフラインデータセットを使用して政策の収益の分布を推定する問題、すなわち分布型オフライン政策評価(OPE)を研究します。
私たちは、適合尤度推定 (FLE) と呼ばれるアルゴリズムを提案します。このアルゴリズムは、一連の最尤推定 (MLE) を実行し、MLE 経由でトレーニングできる限り、最先端の確率生成モデルを統合できる柔軟性を備えています。
FLE は、報酬を多次元ベクトルにすることができる有限ホライズンと無限ホライズンの両方の割引設定に使用できます。
理論的な結果は、有限ホライズンと無限ホライズンの割引設定の両方で、FLE がそれぞれ合計変動距離とワッサーシュタイン距離の下でグラウンド トゥルースに近い分布を学習できることを示しています。
私たちの理論的結果は、オフライン データがテスト ポリシーのトレースをカバーし、教師あり学習 MLE 手順が成功するという条件下で当てはまります。
実験的に、混合ガウス モデルと拡散モデルという 2 つの生成モデルを使用して FLE のパフォーマンスを実証します。
多次元の報酬設定の場合、拡散モデルを備えた FLE は、テスト ポリシーの収益の複雑な分布を推定できます。

要約(オリジナル)

We study the problem of estimating the distribution of the return of a policy using an offline dataset that is not generated from the policy, i.e., distributional offline policy evaluation (OPE). We propose an algorithm called Fitted Likelihood Estimation (FLE), which conducts a sequence of Maximum Likelihood Estimation (MLE) and has the flexibility of integrating any state-of-the-art probabilistic generative models as long as it can be trained via MLE. FLE can be used for both finite-horizon and infinite-horizon discounted settings where rewards can be multi-dimensional vectors. Our theoretical results show that for both finite-horizon and infinite-horizon discounted settings, FLE can learn distributions that are close to the ground truth under total variation distance and Wasserstein distance, respectively. Our theoretical results hold under the conditions that the offline data covers the test policy’s traces and that the supervised learning MLE procedures succeed. Experimentally, we demonstrate the performance of FLE with two generative models, Gaussian mixture models and diffusion models. For the multi-dimensional reward setting, FLE with diffusion models is capable of estimating the complicated distribution of the return of a test policy.

arxiv情報

著者 Runzhe Wu,Masatoshi Uehara,Wen Sun
発行日 2023-12-29 09:56:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク