Optimal Baseline Corrections for Off-Policy Contextual Bandits

要約

オフポリシー学習パラダイムにより、レコメンダー システムと一般的なランキング アプリケーションを意思決定の問題として組み立てることができ、オンライン報酬指標の不偏なオフライン推定を最適化する意思決定ポリシーを学習することを目指しています。
不偏性により分散が大きくなる可能性があり、推定の分散を減らすための一般的な方法が存在します。
これらの方法は通常、加算的 (つまり、ベースライン補正または二重にロバストな方法) または乗算的 (つまり、自己正規化) のいずれかの制御変量を利用します。
私たちの研究では、学習シナリオの同等性に基づいて構築された単一のフレームワークを提案することで、これらのアプローチを統合します。
私たちのフレームワークの基礎は、既存のすべての制御変数に対する同等のベースライン補正を導出することです。
その結果、私たちのフレームワークにより、分散最適化不偏推定量を特徴付け、それに対する閉形式の解を提供することができます。
この最適な推定ツールにより、評価と学習の両方でパフォーマンスが大幅に向上し、データ要件が最小限に抑えられます。
経験的な観察は、私たちの理論的発見を裏付けています。

要約(オリジナル)

The off-policy learning paradigm allows for recommender systems and general ranking applications to be framed as decision-making problems, where we aim to learn decision policies that optimize an unbiased offline estimate of an online reward metric. With unbiasedness comes potentially high variance, and prevalent methods exist to reduce estimation variance. These methods typically make use of control variates, either additive (i.e., baseline corrections or doubly robust methods) or multiplicative (i.e., self-normalisation). Our work unifies these approaches by proposing a single framework built on their equivalence in learning scenarios. The foundation of our framework is the derivation of an equivalent baseline correction for all of the existing control variates. Consequently, our framework enables us to characterize the variance-optimal unbiased estimator and provide a closed-form solution for it. This optimal estimator brings significantly improved performance in both evaluation and learning, and minimizes data requirements. Empirical observations corroborate our theoretical findings.

arxiv情報

著者 Shashank Gupta,Olivier Jeunen,Harrie Oosterhuis,Maarten de Rijke
発行日 2024-08-14 14:14:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG パーマリンク