Choosing a Proxy Metric from Past Experiments

要約

多くの無作為化実験では、長期的な指標 (つまり、関心のある主要な結果) の治療効果を測定することが困難であるか、実行不可能であることがよくあります。
このような長期的な指標は、多くの場合、変化への反応が遅く、ノイズが多いため、短期間の実験で忠実に推定するのは困難です。
一般的な代替方法は、長期的な指標を厳密に追跡することを期待して、いくつかの短期的な代理指標を測定することです。そうすることで、短期的な意思決定を効果的に導くためにそれらの指標を使用できます。
ランダム化実験の同種母集団で使用するための最適な代用メトリクスを定義および構築するための新しい統計フレームワークを導入します。
私たちの手順では、まず、特定の実験における最適な代用メトリックの構築をポートフォリオ最適化問題に還元します。ポートフォリオ最適化問題は、検討中の実験の真の潜在的な治療効果とノイズ レベルに依存します。
次に、ランダム化実験の履歴コーパス内の長期測定基準と一連のプロキシの観察された治療効果のノイズを除去して、最適化問題で使用する潜在的な治療効果の推定値を抽出します。
私たちのアプローチから得られた重要な洞察の 1 つは、特定の実験に対する最適なプロキシ メトリックがアプリオリに固定されていないということです。
むしろ、それが展開されるランダム化実験のサンプルサイズ (または実効ノイズレベル) に依存する必要があります。
私たちのフレームワークをインスタンス化して評価するために、業界の推奨システムからのランダム化された実験の大規模なコーパスで私たちの方法論を採用し、いくつかのベースラインと比較して有利に機能する代理メトリクスを構築します。

要約(オリジナル)

In many randomized experiments, the treatment effect of the long-term metric (i.e. the primary outcome of interest) is often difficult or infeasible to measure. Such long-term metrics are often slow to react to changes and sufficiently noisy they are challenging to faithfully estimate in short-horizon experiments. A common alternative is to measure several short-term proxy metrics in the hope they closely track the long-term metric — so they can be used to effectively guide decision-making in the near-term. We introduce a new statistical framework to both define and construct an optimal proxy metric for use in a homogeneous population of randomized experiments. Our procedure first reduces the construction of an optimal proxy metric in a given experiment to a portfolio optimization problem which depends on the true latent treatment effects and noise level of experiment under consideration. We then denoise the observed treatment effects of the long-term metric and a set of proxies in a historical corpus of randomized experiments to extract estimates of the latent treatment effects for use in the optimization problem. One key insight derived from our approach is that the optimal proxy metric for a given experiment is not apriori fixed; rather it should depend on the sample size (or effective noise level) of the randomized experiment for which it is deployed. To instantiate and evaluate our framework, we employ our methodology in a large corpus of randomized experiments from an industrial recommendation system and construct proxy metrics that perform favorably relative to several baselines.

arxiv情報

著者 Nilesh Tripuraneni,Lee Richardson,Alexander D’Amour,Jacopo Soriano,Steve Yadlowsky
発行日 2023-09-14 17:43:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク