Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation

要約

オフポリシー評価(OPE)は、オフラインのログデータのみを使用して、反実仮想ポリシーの有効性を評価することを目的とし、オンラインA/Bテストで展開するための上位k個の有望なポリシーを識別するためによく使用されます。OPE推定器の既存の評価指標は、主にOPEの「精度」または下流のポリシー選択に焦点を当て、その後のオンラインポリシー展開におけるリスクとリターンのトレードオフを無視している。この問題に対処するため、我々はファイナンスにおけるポートフォリオ評価からヒントを得て、オンライン評価バジェット(k)を変化させた場合のOPE推定器によって形成される政策ポートフォリオのリスク-リターンのトレードオフを測定するSharpeRatio@kと呼ばれる新しい評価指標を開発する。我々は、2つのシナリオを例としてこの指標を検証し、低リスク推定量と高リスク推定量を効果的に区別し、最も効率的な推定量を正確に特定する能力を実証する。この効率的な推定器は、最も有利な政策ポートフォリオを形成する能力によって特徴付けられ、オンライン展開中のリスクを最小化しながらリターンを最大化する。SharpeRatio@kによるOPEの迅速、正確、かつ一貫した評価を容易にするため、我々はこの指標をオープンソースのソフトウェアSCOPE-RLに統合しました。SharpeRatio@kとSCOPE-RLを用いて、様々な推定量とRLタスクについて、リスクとリターンのトレードオフに焦点を当てた包括的なベンチマーク実験を行った。これらの実験から、将来のOPE研究に対するいくつかの興味深い方向性と示唆が得られる。

要約(オリジナル)

Off-Policy Evaluation (OPE) aims to assess the effectiveness of counterfactual policies using only offline logged data and is often used to identify the top-k promising policies for deployment in online A/B tests. Existing evaluation metrics for OPE estimators primarily focus on the ‘accuracy’ of OPE or that of downstream policy selection, neglecting risk-return tradeoff in the subsequent online policy deployment. To address this issue, we draw inspiration from portfolio evaluation in finance and develop a new metric, called SharpeRatio@k, which measures the risk-return tradeoff of policy portfolios formed by an OPE estimator under varying online evaluation budgets (k). We validate our metric in two example scenarios, demonstrating its ability to effectively distinguish between low-risk and high-risk estimators and to accurately identify the most efficient estimator. This efficient estimator is characterized by its capability to form the most advantageous policy portfolios, maximizing returns while minimizing risks during online deployment, a nuance that existing metrics typically overlook. To facilitate a quick, accurate, and consistent evaluation of OPE via SharpeRatio@k, we have also integrated this metric into an open-source software, SCOPE-RL. Employing SharpeRatio@k and SCOPE-RL, we conduct comprehensive benchmarking experiments on various estimators and RL tasks, focusing on their risk-return tradeoff. These experiments offer several interesting directions and suggestions for future OPE research.

arxiv情報

著者 Haruka Kiyohara,Ren Kishimoto,Kosuke Kawakami,Ken Kobayashi,Kazuhide Nakata,Yuta Saito
発行日 2023-12-04 18:37:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク