Conformal Off-Policy Evaluation in Markov Decision Processes

要約

強化学習は、データから効率的な制御ポリシーを特定し、評価することを目的としています。
現実世界のアプリケーションの多くでは、学習者は実験することを許可されておらず、オンラインでデータを収集することもできません (これは、実験に費用がかかり、リスクがあり、非倫理的である場合に当てはまります)。
このようなアプリケーションの場合、特定のポリシー (ターゲット ポリシー) の報酬は、別のポリシー (動作ポリシー) の下で収集された履歴データを使用して推定する必要があります。
オフポリシー評価 (OPE) と呼ばれるこの学習タスクのほとんどの方法には、精度と確実性の保証がありません。
我々は、規定の確実性レベルでターゲットポリシーの真の報酬を含む区間を出力する、等角予測に基づく新しいOPE手法を提案します。
OPE における主な課題は、目標と行動方針の不一致による分布の変化に起因します。
私たちは、この変化に対処するさまざまな方法を提案し、経験的に評価します。
これらの方法の中には、同じ確実性レベルを維持しながら、既存のアプローチと比較して長さが短縮された等角化された間隔を生成するものもあります。

要約(オリジナル)

Reinforcement Learning aims at identifying and evaluating efficient control policies from data. In many real-world applications, the learner is not allowed to experiment and cannot gather data in an online manner (this is the case when experimenting is expensive, risky or unethical). For such applications, the reward of a given policy (the target policy) must be estimated using historical data gathered under a different policy (the behavior policy). Most methods for this learning task, referred to as Off-Policy Evaluation (OPE), do not come with accuracy and certainty guarantees. We present a novel OPE method based on Conformal Prediction that outputs an interval containing the true reward of the target policy with a prescribed level of certainty. The main challenge in OPE stems from the distribution shift due to the discrepancies between the target and the behavior policies. We propose and empirically evaluate different ways to deal with this shift. Some of these methods yield conformalized intervals with reduced length compared to existing approaches, while maintaining the same certainty level.

arxiv情報

著者 Daniele Foffano,Alessio Russo,Alexandre Proutiere
発行日 2023-09-19 14:40:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY パーマリンク