要約
Off-Policy Estimation (OPE) 手法を使用すると、ログに記録されたデータから意思決定ポリシーを学習して評価できます。
このため、推奨システムのオフライン評価には OPE 手法が魅力的な選択肢となり、最近のいくつかの研究では、この目的のために OPE 手法を採用することに成功したことが報告されています。
これを機能させるための重要な前提は、観測されていない交絡因子、つまりデータ収集時にアクションと報酬の両方に影響を与える確率変数が存在しないことです。
データ収集ポリシーは通常、実務者の管理下にあるため、無交絡性の仮定は暗黙的に残されることが多く、その違反が既存の文献で扱われることはほとんどありません。
この研究の目的は、観察されていない交絡因子の存在下でポリシー外の推定を実行するときに発生する問題を明らかにすること、特に推奨のユースケースに焦点を当てることです。
私たちは、ログの傾向がログに記録されたデータから学習される、ポリシーベースの推定に焦点を当てています。
私たちは、交絡によって生じる統計的偏りを特徴づけ、既存の診断がそのようなケースをどのように発見できないかを示します。
偏りは実際の観察されていない伐採傾向に直接依存するため、特定することはできません。
無交絡性の仮定が検証できないことはよく知られているので、これは特に問題になります。
この文書では、この共通の、しかし見落とされがちな問題を強調します。
私たちは、合成データを通じて、交絡のもとでの単純な傾向推定が、レーダーを無視して飛行することを許可される、ひどく偏った指標推定にどのようにつながる可能性があるかを経験的に示します。
私たちは、この重要な問題に対する研究者や実践者の認識を育み、その影響を軽減するための潜在的な研究の方向性に触れることを目指しています。
要約(オリジナル)
Off-Policy Estimation (OPE) methods allow us to learn and evaluate decision-making policies from logged data. This makes them an attractive choice for the offline evaluation of recommender systems, and several recent works have reported successful adoption of OPE methods to this end. An important assumption that makes this work is the absence of unobserved confounders: random variables that influence both actions and rewards at data collection time. Because the data collection policy is typically under the practitioner’s control, the unconfoundedness assumption is often left implicit, and its violations are rarely dealt with in the existing literature. This work aims to highlight the problems that arise when performing off-policy estimation in the presence of unobserved confounders, specifically focusing on a recommendation use-case. We focus on policy-based estimators, where the logging propensities are learned from logged data. We characterise the statistical bias that arises due to confounding, and show how existing diagnostics are unable to uncover such cases. Because the bias depends directly on the true and unobserved logging propensities, it is non-identifiable. As the unconfoundedness assumption is famously untestable, this becomes especially problematic. This paper emphasises this common, yet often overlooked issue. Through synthetic data, we empirically show how na\’ive propensity estimation under confounding can lead to severely biased metric estimates that are allowed to fly under the radar. We aim to cultivate an awareness among researchers and practitioners of this important problem, and touch upon potential research directions towards mitigating its effects.
arxiv情報
著者 | Olivier Jeunen,Ben London |
発行日 | 2023-09-08 09:11:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google