要約
ノーススター指標とオンライン実験は、テクノロジー企業が製品を改善する方法において中心的な役割を果たします。
ただし、多くの実際の設定では、北極星計量に直接基づいて実験を評価することは困難な場合があります。
最も重大な 2 つの問題は、1) 北極星計量の感度の低さ、および 2) 北極星計量に対する短期的影響と長期的影響の違いです。
一般的な解決策は、実験の評価と打ち上げの決定において、北極星ではなく代理指標に依存することです。
代理指標に関する既存の文献は、主に短期の実験データから長期的な影響を推定することに重点を置いています。
その代わりに、このホワイトペーパーでは、長期的な影響の推定と短期的な感応度の間のトレードオフに焦点を当てます。
特に、予測精度と感度を同時に最適化するパレート最適プロキシ メトリクス手法を提案します。
さらに、標準的な手法を上回る効率的な多目的最適化アルゴリズムを提供します。
私たちの方法論を大規模な産業推奨システムの実験に適用したところ、北極星よりも 8 倍感度が高く、一貫して同じ方向に移動する代理メトリクスが見つかり、新機能を導入するための意思決定の速度と質が向上しました。
要約(オリジナル)
North star metrics and online experimentation play a central role in how technology companies improve their products. In many practical settings, however, evaluating experiments based on the north star metric directly can be difficult. The two most significant issues are 1) low sensitivity of the north star metric and 2) differences between the short-term and long-term impact on the north star metric. A common solution is to rely on proxy metrics rather than the north star in experiment evaluation and launch decisions. Existing literature on proxy metrics concentrates mainly on the estimation of the long-term impact from short-term experimental data. In this paper, instead, we focus on the trade-off between the estimation of the long-term impact and the sensitivity in the short term. In particular, we propose the Pareto optimal proxy metrics method, which simultaneously optimizes prediction accuracy and sensitivity. In addition, we give an efficient multi-objective optimization algorithm that outperforms standard methods. We applied our methodology to experiments from a large industrial recommendation system, and found proxy metrics that are eight times more sensitive than the north star and consistently moved in the same direction, increasing the velocity and the quality of the decisions to launch new features.
arxiv情報
著者 | Lee Richardson,Alessandro Zito,Dylan Greaves,Jacopo Soriano |
発行日 | 2023-07-03 13:29:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google