Variance Reduction in Ratio Metrics for Efficient Online Experiments

要約

A/B テストなどのオンライン制御実験は、継続的なシステム改善を可能にするために現代のテクノロジー企業で一般的に使用されています。
A/B テストは非常に重要であるにもかかわらず、コストがかかります。その定義により、トラフィックの一部に劣ったシステム バリアントが割り当てられます。
トップレベルの指標の統計的有意性を確保するために、オンライン実験は通常、数週間実行されます。
その場合でも、かなりの量の実験が決定的でない結果(つまり、偽陰性またはタイプ II エラー)につながります。
この非効率性の主な原因は、オンライン指標のばらつきです。
分散削減手法は文献で提案されていますが、一般的に使用される比率指標 (クリックスルー率やユーザー保持率など) への直接適用は限られています。
この研究では、大規模なショートビデオ プラットフォームである ShareChat 上の比率メトリクスに分散削減手法を適用することに成功しました。
私たちの経験的結果は、ケースの 77% で A/B テストの信頼性を向上させることができるか、または 30% 少ないデータポイントで同じレベルの信頼性を維持できることを示しています。
重要なのは、回帰にできるだけ多くの共変量を含める一般的なアプローチは逆効果であることを示し、勾配ブースト決定ツリー予測子に基づく制御変数が最も効果的であることを強調しています。
これらの方法を大規模に実装する実用性について説明し、それによってもたらされるコスト削減を紹介します。

要約(オリジナル)

Online controlled experiments, such as A/B-tests, are commonly used by modern tech companies to enable continuous system improvements. Despite their paramount importance, A/B-tests are expensive: by their very definition, a percentage of traffic is assigned an inferior system variant. To ensure statistical significance on top-level metrics, online experiments typically run for several weeks. Even then, a considerable amount of experiments will lead to inconclusive results (i.e. false negatives, or type-II error). The main culprit for this inefficiency is the variance of the online metrics. Variance reduction techniques have been proposed in the literature, but their direct applicability to commonly used ratio metrics (e.g. click-through rate or user retention) is limited. In this work, we successfully apply variance reduction techniques to ratio metrics on a large-scale short-video platform: ShareChat. Our empirical results show that we can either improve A/B-test confidence in 77% of cases, or can retain the same level of confidence with 30% fewer data points. Importantly, we show that the common approach of including as many covariates as possible in regression is counter-productive, highlighting that control variates based on Gradient-Boosted Decision Tree predictors are most effective. We discuss the practicalities of implementing these methods at scale and showcase the cost reduction they beget.

arxiv情報

著者 Shubham Baweja,Neeti Pokharna,Aleksei Ustimenko,Olivier Jeunen
発行日 2024-01-08 18:01:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG, stat.AP パーマリンク