SNPL: Simultaneous Policy Learning and Evaluation for Safe Multi-Objective Policy Improvement

要約

効果的なデジタル介入を設計するために、実験者は、オフラインデータを使用して複数の目標のバランスをとる決定ポリシーを学習するという課題に直面します。
多くの場合、彼らは目標の成果を最大化するポリシーを開発することを目指しているが、ガードレールの結果に望ましくない変化がないことを保証することを目指しています。
信頼できる推奨事項を提供するために、実験者は、目標とガードレールの結果の望ましい変化を満たすポリシーを特定するだけでなく、これらのポリシーが誘発する変更について確率的保証も提供する必要があります。
ただし、実際には、ポリシークラスは多くの場合大きく、デジタル実験はノイズに比べて小さな効果サイズのデータ​​セットを生成する傾向があります。
この設定では、データの分割や複数のテストなどの標準的なアプローチにより、不安定なポリシー選択や統計パワーが不十分になることがよくあります。
この論文では、これらの課題に対処するためにアルゴリズムの安定性の概念を活用する新しいアプローチである、安全なノイズの多いポリシー学習(SNPL)を提供します。
当社の方法により、ポリシー学習が可能になり、データセット全体を使用して高い自信保証を提供し、データ分割の必要性を回避できます。
推奨されるポリシーがガードレール回帰を回避し、目標の結果の改善を達成するための高確定性保証を満たすことを保証するアルゴリズムの有限サンプルおよび漸近バージョンを提示します。
SMS配信のパーソナライズの実際のアプリケーションで、アプローチアプローチの両方のバリエーションを経験的にテストします。
現実世界のデータに関する我々の結果は、私たちのアプローチが、大規模なポリシークラスと低いサンプルと漸近安全保証の両方で大きな信号対雑音を備えた設定の劇的な改善を提供し、検出率の最大300%の改善と、かなり少ないサンプルサイズでのポリシーゲインの150 \%の改善を提供することを示唆しています。

要約(オリジナル)

To design effective digital interventions, experimenters face the challenge of learning decision policies that balance multiple objectives using offline data. Often, they aim to develop policies that maximize goal outcomes, while ensuring there are no undesirable changes in guardrail outcomes. To provide credible recommendations, experimenters must not only identify policies that satisfy the desired changes in goal and guardrail outcomes, but also offer probabilistic guarantees about the changes these policies induce. In practice, however, policy classes are often large, and digital experiments tend to produce datasets with small effect sizes relative to noise. In this setting, standard approaches such as data splitting or multiple testing often result in unstable policy selection and/or insufficient statistical power. In this paper, we provide safe noisy policy learning (SNPL), a novel approach that leverages the concept of algorithmic stability to address these challenges. Our method enables policy learning while simultaneously providing high-confidence guarantees using the entire dataset, avoiding the need for data-splitting. We present finite-sample and asymptotic versions of our algorithm that ensure the recommended policy satisfies high-probability guarantees for avoiding guardrail regressions and/or achieving goal outcome improvements. We test both variants of our approach approach empirically on a real-world application of personalizing SMS delivery. Our results on real-world data suggest that our approach offers dramatic improvements in settings with large policy classes and low signal-to-noise across both finite-sample and asymptotic safety guarantees, offering up to 300\% improvements in detection rates and 150\% improvements in policy gains at significantly smaller sample sizes.

arxiv情報

著者 Brian Cho,Ana-Roxana Pop,Ariel Evnine,Nathan Kallus
発行日 2025-03-21 17:38:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM, stat.ML パーマリンク