要約
新しいデータのバッチが利用可能になったときに機械学習モデル (ML) を再トレーニングすることは、現実世界のパイプラインでは重要なタスクです。
既存の手法は、再トレーニングの反復にわたるモデルの構造の安定性を考慮せず、各バッチで最高のパフォーマンスのモデルを見つける貪欲なアプローチに主に焦点を当てています。
この研究では、再トレーニングの反復にわたって安定した ML モデルのシーケンスを見つけるための方法論を提案します。
私たちは、パレート最適モデル (予測電力と安定性のトレードオフの観点から) を回復することが保証される混合整数最適化アルゴリズムと、実際に良好なパフォーマンスを発揮する効率的な多項式時間アルゴリズムを開発します。
私たちの手法は、最適化問題に直接組み込むことができるカスタム定義の距離メトリックを使用することで、一貫した分析洞察を維持することに重点を置いています。これは、モデルの解釈可能性、実装の容易さ、ユーザーとの信頼の醸成にとって重要です。
重要なのは、実際のケーススタディにおいて、私たちの方法は、モデルのパフォーマンスの制御可能な犠牲が少なく、貪欲にトレーニングされたモデルよりも強い安定性を示していることです。
SHAP 特徴量の重要性を使用して、分析の洞察が再トレーニングの反復全体にわたって一貫していることを示します。
要約(オリジナル)
Retraining machine learning models (ML) when new batches of data become available is an important task in real-world pipelines. Existing methods focus largely on greedy approaches to find the best-performing model for each batch, without considering the stability of the model’s structure across retraining iterations. In this study, we propose a methodology for finding sequences of ML models that are stable across retraining iterations. We develop a mixed-integer optimization algorithm that is guaranteed to recover Pareto optimal models (in terms of the predictive power-stability trade-off) and an efficient polynomial-time algorithm that performs well in practice. Our method focuses on retaining consistent analytical insights — which is important to model interpretability, ease of implementation, and fostering trust with users — by using custom-defined distance metrics that can be directly incorporated into the optimization problem. Importantly, our method shows stronger stability than greedily trained models with a small, controllable sacrifice in model performance in a real-world case study. Using SHAP feature importance, we show that analytical insights are consistent across retraining iterations.
arxiv情報
著者 | Dimitris Bertsimas,Vassilis Digalakis Jr,Yu Ma,Phevos Paschalidis |
発行日 | 2024-04-29 15:12:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google