要約
複数のターゲット ポリシーを公平に評価するために、RL 実践者の間で主流のアプローチは、各ターゲット ポリシーを個別に実行して評価することです。
ただし、サンプルがポリシー間で共有されず、ターゲット ポリシーを実行してそれ自体を評価することは実際には最適ではないため、この評価方法は効率的とは程遠いです。
このペーパーでは、すべてのターゲット ポリシーにわたる推定量の分散を減らすために調整された動作ポリシーを設計することで、これら 2 つの弱点に対処します。
理論的には、何倍も少ないサンプルでこの動作ポリシーを実行すると、特徴付けられた条件下ですべてのターゲット ポリシーに対するポリシー評価よりも優れたパフォーマンスを発揮することが証明されます。
経験的に、私たちの推定量は以前の最良の方法と比較して大幅に低い分散を持ち、幅広い環境で最先端のパフォーマンスを達成することが示されています。
要約(オリジナル)
To unbiasedly evaluate multiple target policies, the dominant approach among RL practitioners is to run and evaluate each target policy separately. However, this evaluation method is far from efficient because samples are not shared across policies, and running target policies to evaluate themselves is actually not optimal. In this paper, we address these two weaknesses by designing a tailored behavior policy to reduce the variance of estimators across all target policies. Theoretically, we prove that executing this behavior policy with manyfold fewer samples outperforms on-policy evaluation on every target policy under characterized conditions. Empirically, we show our estimator has a substantially lower variance compared with previous best methods and achieves state-of-the-art performance in a broad range of environments.
arxiv情報
著者 | Shuze Liu,Yuxin Chen,Shangtong Zhang |
発行日 | 2024-08-16 12:33:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google