The impact of heteroskedasticity on uplift modeling

要約

企業はどの個人に最適な治療を割り当てるかを決定する必要があるさまざまな用途があります。
このような決定をサポートするために、上昇モデルを適用して個人レベルでの治療効果を予測します。
予測された治療効果に基づいて個人をランク付けし、このランクに従って治療の優先順位を割り当てることができます。
これまでの隆起モデリングの文献では疑問視されていなかった暗黙の仮定は、この治療優先順位付けアプローチでは、治療効果の高い個人がランキングの最上位に、治療効果の低い個人が最下位になる傾向があるということです。
私たちの研究では、トレーニング データの不均一分散性が上昇モデルのランキングの偏りを引き起こす可能性があることを示しています。最も高い治療効果を持つ個人がランキングの最下位に多数蓄積される可能性があります。
不均一分散性が隆起モデルのランキングにどのような偏りをもたらすかを理論的に説明し、このプロセスをシミュレーションと実世界のデータで示します。
我々は、不均一分散性によるこの順位付けの偏りの問題は、現実世界の多くのアプリケーションで発生する可能性があり、効率的な治療割り当てを達成するには治療の優先順位付けの修正が必要であると主張します。

要約(オリジナル)

There are various applications, where companies need to decide to which individuals they should best allocate treatment. To support such decisions, uplift models are applied to predict treatment effects on an individual level. Based on the predicted treatment effects, individuals can be ranked and treatment allocation can be prioritized according to this ranking. An implicit assumption, which has not been doubted in the previous uplift modeling literature, is that this treatment prioritization approach tends to bring individuals with high treatment effects to the top and individuals with low treatment effects to the bottom of the ranking. In our research, we show that heteroskedastictity in the training data can cause a bias of the uplift model ranking: individuals with the highest treatment effects can get accumulated in large numbers at the bottom of the ranking. We explain theoretically how heteroskedasticity can bias the ranking of uplift models and show this process in a simulation and on real-world data. We argue that this problem of ranking bias due to heteroskedasticity might occur in many real-world applications and requires modification of the treatment prioritization to achieve an efficient treatment allocation.

arxiv情報

著者 Björn Bokelmann,Stefan Lessmann
発行日 2023-12-08 18:32:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク