要約
モンテカルロ (MC) 法は、ポリシーのパフォーマンスを推定するために最も広く使用されている方法です。
関心のあるポリシーが与えられると、MC メソッドは、このポリシーを繰り返し実行してサンプルを収集し、結果の平均を取ることで見積もりを出します。
このプロセスで収集されたサンプルは、オンライン サンプルと呼ばれます。
正確な見積もりを得るために、MC メソッドは大量のオンライン サンプルを消費します。
オンラインのレコメンデーションや在庫管理など、オンライン サンプルが高価な場合、同じ推定精度を達成しながらオンライン サンプルの数を減らしたいと考えています。
この目的のために、動作ポリシーと呼ばれる別のポリシーを実行することによって、関心のあるポリシーを評価するオフポリシー MC メソッドを使用します。
ポリシー外の MC 推定量の分散が通常の MC 推定量よりも小さくなるように、調整された動作ポリシーを設計します。
重要なことに、この調整された動作ポリシーは、既存のオフライン データ、つまり以前にログに記録されたデータから効率的に学習でき、オンライン サンプルよりもはるかに安価です。
分散が少ないため、ポリシー外の MC 法では、通常の MC 法と比較して、ポリシーのパフォーマンスを評価するために必要なオンライン サンプルが少なくて済みます。
さらに、ポリシー外の MC 推定量は常に偏りがありません。
要約(オリジナル)
Monte Carlo (MC) methods are the most widely used methods to estimate the performance of a policy. Given an interested policy, MC methods give estimates by repeatedly running this policy to collect samples and taking the average of the outcomes. Samples collected during this process are called online samples. To get an accurate estimate, MC methods consume massive online samples. When online samples are expensive, e.g., online recommendations and inventory management, we want to reduce the number of online samples while achieving the same estimate accuracy. To this end, we use off-policy MC methods that evaluate the interested policy by running a different policy called behavior policy. We design a tailored behavior policy such that the variance of the off-policy MC estimator is provably smaller than the ordinary MC estimator. Importantly, this tailored behavior policy can be efficiently learned from existing offline data, i,e., previously logged data, which are much cheaper than online samples. With reduced variance, our off-policy MC method requires fewer online samples to evaluate the performance of a policy compared with the ordinary MC method. Moreover, our off-policy MC estimator is always unbiased.
arxiv情報
著者 | Shuze Liu,Shangtong Zhang |
発行日 | 2023-03-23 16:42:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google