要約
推奨へのアプローチは通常、次の 2 つの方法のいずれかで評価されます。(1) (模擬) オンライン実験 (ゴールド スタンダードとみなされます) を介して、または (2) 何らかのオフライン評価手順を介して、目標は結果を近似することです。
オンライン実験。
情報検索の分野で普及しているランキング指標に触発されて、いくつかのオフライン評価指標が文献に採用されています。
(正規化された) 割引累積ゲイン (nDCG) は、実証研究で広く採用されている指標の 1 つであり、より高い (n)DCG 値は、上位 n ドルの分野で最先端の手法として新しい手法を提示するために使用されています。
長年にわたる$推奨。
私たちの研究では、このアプローチを批判的に検討し、そのような指標がオンライン実験のゴールドスタンダードの結果に近似すると予想できる時期を調査しています。
私たちは、DCG をオンライン報酬の不偏推定量とみなすために必要な仮定を正式に提示し、第一原理からのこの指標の導出を提供し、IR における従来の使用法からどこが逸脱しているかを強調します。
重要なのは、DCG にバイアスがかかっていない場合でも、正規化された DCG によって競合する手法をランク付けすると、相対的な順序が逆転する可能性があるため、メトリックを正規化すると一貫性がなくなることを示しています。
大規模なレコメンデーション プラットフォームで実施されたオフライン実験とオンライン実験の間の相関分析を通じて、指標の固有の仮定の一部が違反されている場合でも、不偏 DCG 推定値がオンライン報酬と強く相関していることを示しました。
このステートメントは、正規化されたバリアントにはもはや当てはまらず、nDCG の実用性が制限される可能性があることを示唆しています。
要約(オリジナル)
Approaches to recommendation are typically evaluated in one of two ways: (1) via a (simulated) online experiment, often seen as the gold standard, or (2) via some offline evaluation procedure, where the goal is to approximate the outcome of an online experiment. Several offline evaluation metrics have been adopted in the literature, inspired by ranking metrics prevalent in the field of Information Retrieval. (Normalised) Discounted Cumulative Gain (nDCG) is one such metric that has seen widespread adoption in empirical studies, and higher (n)DCG values have been used to present new methods as the state-of-the-art in top-$n$ recommendation for many years. Our work takes a critical look at this approach, and investigates when we can expect such metrics to approximate the gold standard outcome of an online experiment. We formally present the assumptions that are necessary to consider DCG an unbiased estimator of online reward and provide a derivation for this metric from first principles, highlighting where we deviate from its traditional uses in IR. Importantly, we show that normalising the metric renders it inconsistent, in that even when DCG is unbiased, ranking competing methods by their normalised DCG can invert their relative order. Through a correlation analysis between off- and on-line experiments conducted on a large-scale recommendation platform, we show that our unbiased DCG estimates strongly correlate with online reward, even when some of the metric’s inherent assumptions are violated. This statement no longer holds for its normalised variant, suggesting that nDCG’s practical utility may be limited.
arxiv情報
著者 | Olivier Jeunen,Ivan Potapov,Aleksei Ustimenko |
発行日 | 2023-11-15 14:46:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google