Prediction Instability in Machine Learning Ensembles

要約

機械学習のアンサンブルでは、複数のモデルからの予測が集約される。応用問題においてアンサンブルは広く使用され、強力な性能を発揮しているにもかかわらず、集約モデルの数学的特性や、そのようなモデルを安全に説明可能に使用するための関連する結果についてはほとんど知られていない。本論文では、どのようなアンサンブルも、次のような予測不安定性の少なくとも1つを示す定理を証明する。アンサンブルは、基礎となるすべてのモデル間の一致を無視するか、基礎となるどのモデルもそうしていないときにその考えを変えるか、あるいは、実際には予測することのない選択肢を包含したり除外したりすることによって操作可能になるかのいずれかである。結果として、アンサンブル集計手続きは常に、こうした予測不安定性のリスクと情報利用の利点のバランスを取る必要があります。例えば、ランダムフォレストやxgboostのような一般的なツリーアンサンブルは、基本的で直感的な単調性と公平性の特性に違反します。

要約(オリジナル)

In machine learning ensembles predictions from multiple models are aggregated. Despite widespread use and strong performance of ensembles in applied problems little is known about the mathematical properties of aggregating models and associated consequences for safe, explainable use of such models. In this paper we prove a theorem that shows that any ensemble will exhibit at least one of the following forms of prediction instability. It will either ignore agreement among all underlying models, change its mind when none of the underlying models have done so, or be manipulable through inclusion or exclusion of options it would never actually predict. As a consequence, ensemble aggregation procedures will always need to balance the benefits of information use against the risk of these prediction instabilities. This analysis also sheds light on what specific forms of prediction instability to expect from particular ensemble algorithms; for example popular tree ensembles like random forest, or xgboost will violate basic, intuitive monotonicity and fairness properties.

arxiv情報

著者 Jeremy Kedziora
発行日 2024-07-03 15:26:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, I.2.0 パーマリンク