Clustering Context in Off-Policy Evaluation

要約

オフポリシー評価は、記録されたデータを活用して、eコマース、検索エンジン、メディアストリーミングサービス、またはヘルスケアの自動診断ツールの新しいポリシーの有効性を推定することができます。
ただし、ロギングポリシーが評価ポリシーと大きく異なると、IPSのようなベースラインオフポリシー推定器のパフォーマンスは悪化します。
最近の研究では、この問題を軽減するために、同様のアクションで情報を共有することを提案しています。
この作業では、クラスタリングを使用して同様のコンテキストで情報を共有する代替推定器を提案します。
提案された推定器の理論的特性を研究し、異なる条件下でそのバイアスと分散を特徴付けます。
また、さまざまな合成問題における提案された推定器と既存のアプローチのパフォーマンスと、実際の推奨データセットを比較します。
実験結果は、クラスタリングコンテキストにより、特に情報設定が不十分な場合、推定精度が向上することを確認しています。

要約(オリジナル)

Off-policy evaluation can leverage logged data to estimate the effectiveness of new policies in e-commerce, search engines, media streaming services, or automatic diagnostic tools in healthcare. However, the performance of baseline off-policy estimators like IPS deteriorates when the logging policy significantly differs from the evaluation policy. Recent work proposes sharing information across similar actions to mitigate this problem. In this work, we propose an alternative estimator that shares information across similar contexts using clustering. We study the theoretical properties of the proposed estimator, characterizing its bias and variance under different conditions. We also compare the performance of the proposed estimator and existing approaches in various synthetic problems, as well as a real-world recommendation dataset. Our experimental results confirm that clustering contexts improves estimation accuracy, especially in deficient information settings.

arxiv情報

著者 Daniel Guzman-Olivares,Philipp Schmidt,Jacek Golebiowski,Artur Bekasov
発行日 2025-02-28 18:40:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク