Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences


新しいデータのバッチが利用可能になったときに機械学習モデル (ML) を再トレーニングすることは、現実世界のパイプラインでは重要なタスクです。
この研究では、再トレーニングの反復にわたって安定した ML モデルのシーケンスを見つけるための方法論を提案します。
私たちは、パレート最適モデル (予測電力と安定性のトレードオフの観点から) を回復することが保証される混合整数最適化アルゴリズムと、実際に良好なパフォーマンスを発揮する効率的な多項式時間アルゴリズムを開発します。
SHAP 特徴量の重要性を使用して、分析の洞察が再トレーニングの反復全体にわたって一貫していることを示します。


Retraining machine learning models (ML) when new batches of data become available is an important task in real-world pipelines. Existing methods focus largely on greedy approaches to find the best-performing model for each batch, without considering the stability of the model’s structure across retraining iterations. In this study, we propose a methodology for finding sequences of ML models that are stable across retraining iterations. We develop a mixed-integer optimization algorithm that is guaranteed to recover Pareto optimal models (in terms of the predictive power-stability trade-off) and an efficient polynomial-time algorithm that performs well in practice. Our method focuses on retaining consistent analytical insights — which is important to model interpretability, ease of implementation, and fostering trust with users — by using custom-defined distance metrics that can be directly incorporated into the optimization problem. Importantly, our method shows stronger stability than greedily trained models with a small, controllable sacrifice in model performance in a real-world case study. Using SHAP feature importance, we show that analytical insights are consistent across retraining iterations.


著者 Dimitris Bertsimas,Vassilis Digalakis Jr,Yu Ma,Phevos Paschalidis
発行日 2024-04-29 15:12:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク