Exponential Smoothing for Off-Policy Learning

要約

オフポリシー学習(OPL)は、ログバンディットデータから改善されたポリシーを見つけることを目的としており、多くの場合、リスクの逆強調性スコアリング(IPS)推定量を最小化する。この研究では、IPSの滑らかな正則化を研究し、それに対して両側PAC-Bayesの汎化境界を導出する。この境界は扱いやすく、スケーラブルで、解釈可能であり、学習証明も提供する。特に、重要度重みが有界であるという仮定をせずに、標準的なIPSに対しても有効である。我々は、一連の学習課題を通じて、我々のアプローチの妥当性とその有利な性能を実証する。標準的なIPSに対して我々の境界が成立することから、IPSの正則化がどのような場合に有効であるかについての洞察を提供することができる。つまり、正則化が不要なケースを特定することができる。これは、実際にはクリップドIPSはOPLにおいて標準IPSよりも良好な性能を発揮することが多いという考え方に反するものである。

要約(オリジナル)

Off-policy learning (OPL) aims at finding improved policies from logged bandit data, often by minimizing the inverse propensity scoring (IPS) estimator of the risk. In this work, we investigate a smooth regularization for IPS, for which we derive a two-sided PAC-Bayes generalization bound. The bound is tractable, scalable, interpretable and provides learning certificates. In particular, it is also valid for standard IPS without making the assumption that the importance weights are bounded. We demonstrate the relevance of our approach and its favorable performance through a set of learning tasks. Since our bound holds for standard IPS, we are able to provide insight into when regularizing IPS is useful. Namely, we identify cases where regularization might not be needed. This goes against the belief that, in practice, clipped IPS often enjoys favorable performance than standard IPS in OPL.

arxiv情報

著者 Imad Aouali,Victor-Emmanuel Brunel,David Rohde,Anna Korba
発行日 2023-06-05 13:05:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク