A Common Misassumption in Online Experiments with Machine Learning Models

要約

タイトル:機械学習モデルを用いたオンライン実験における共通の誤解
要約:オンライン実験は、ランダム化比較試験(RCT)やA/Bテストなど、現代のWebプラットフォームの重要な部分です。これらは、プラットフォームがシステムバリアント「A」をバリアント「B」に置き換えた場合の因果効果を推定することを可能にするため、継続的に実施される。これらのバリアントは多くの側面で異なることがありますが、本論文では、機械学習モデルに対応する一般的なユースケースに焦点を当てる。オンライン実験は、最終的にどのモデルが優れているかを決定し、出荷すべきであると判断される。RCTから因果効果の推定に関する統計学の文献には、実証研究者や実践者がこの評価方法の「ゴールドスタンダード」として信頼するのに対して、相応しい長い歴史があります。ただし、機械学習実験の特定の場合については、誤った考え方があることが指摘されています。特に、A/Bテストが因果効果のバイアスのない推定値を生成するために必要な前提条件が、実践的なアプリケーションではめったに満たされていないことが問題であると主張されています。バリアントは、通常、プールされたデータを使用して学習されるため、モデルの干渉がないことは保証されていないため、オンライン実験から得られる結論が危ういと考えられています。これについて、実践者や研究文献にどのような影響があるかについても議論がされています。

– オンライン実験は、現代のWebプラットフォームにおいて非常に重要である。
– ランダム化比較試験(RCT)やA/Bテストはオンライン実験の例である。
– 機械学習モデルを用いたオンライン実験は、どのモデルが優れているかを決定するために使用される。
– A/Bテストが因果効果のバイアスのない推定値を生成するために必要な前提条件が、実践的なアプリケーションではめったに満たされていない。
– A/Bテストから得られる結論が危ういため、注意する必要がある。

要約(オリジナル)

Online experiments such as Randomised Controlled Trials (RCTs) or A/B-tests are the bread and butter of modern platforms on the web. They are conducted continuously to allow platforms to estimate the causal effect of replacing system variant ‘A’ with variant ‘B’, on some metric of interest. These variants can differ in many aspects. In this paper, we focus on the common use-case where they correspond to machine learning models. The online experiment then serves as the final arbiter to decide which model is superior, and should thus be shipped. The statistical literature on causal effect estimation from RCTs has a substantial history, which contributes deservedly to the level of trust researchers and practitioners have in this ‘gold standard’ of evaluation practices. Nevertheless, in the particular case of machine learning experiments, we remark that certain critical issues remain. Specifically, the assumptions that are required to ascertain that A/B-tests yield unbiased estimates of the causal effect, are seldom met in practical applications. We argue that, because variants typically learn using pooled data, a lack of model interference cannot be guaranteed. This undermines the conclusions we can draw from online experiments with machine learning models. We discuss the implications this has for practitioners, and for the research literature.

arxiv情報

著者 Olivier Jeunen
発行日 2023-04-21 11:36:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.IR, cs.LG, stat.ML パーマリンク