要約
オンライン実験における標準的なA/Bテストは、複数の候補を同時にテストする場合、統計的検出力の問題に直面する。一方、適応的実験計画(AED)だけでは、特に多くの指標(例えば、収益、安全性)と不均一な分散の場合、平均的な治療効果のような実験統計量を推論するには不十分である。本論文では、最適な治療を特定するための適応的探索フェーズと、治療の質を検証し統計量を推論するためのA/Bテストによる検証フェーズの2フェーズ構造を持つ固定予算マルチメトリックAEDフレームワークを提案する。我々はSHRVarを提案するが、これは逐次的半減法(sequential halving:SH)(Karninら、2013)を、新しい相対分散ベースのサンプリングと報酬z値に基づく消去戦略で一般化したものである。これは、指数関数的に減少する証明可能なエラー確率を達成し、ここで指数はSH (Karnin et al., 2013)とSHVar (Lalitha et al., 2023)の複雑さの尺度を一般化する。数値実験は我々の分析を検証し、この新しいフレームワークの優れた性能を実証する。
要約(オリジナル)
Standard A/B tests in online experiments face statistical power challenges when testing multiple candidates simultaneously, while adaptive experimental designs (AED) alone fall short in inferring experiment statistics such as the average treatment effect, especially with many metrics (e.g., revenue, safety) and heterogeneous variances. This paper proposes a fixed-budget multi-metric AED framework with a two-phase structure: an adaptive exploration phase to identify the best treatment, and a validation phase with an A/B test to verify the treatment’s quality and infer statistics. We propose SHRVar, which generalizes sequential halving (SH) (Karnin et al., 2013) with a novel relative-variance-based sampling and an elimination strategy built on reward z-values. It achieves a provable error probability that decreases exponentially, where the exponent generalizes the complexity measure for SH (Karnin et al., 2013) and SHVar (Lalitha et al., 2023) with homogeneous and heterogeneous variances, respectively. Numerical experiments verify our analysis and demonstrate the superior performance of this new framework.
arxiv情報
著者 | Qining Zhang,Tanner Fiez,Yi Liu,Wenyang Liu |
発行日 | 2025-06-03 16:41:11+00:00 |
arxivサイト | arxiv_id(pdf) |