要約
表形式のデータ セットについては、データの探索とモデルの蒸留、およびデータのノイズ除去を行います。
これらの手法は、勾配ブースティング モデルと特殊な DNN アーキテクチャの両方を改善します。
勾配ブースティングは、表形式のデータでは DNN よりも優れていることが知られていますが、10 万行以上のデータセットのギャップを埋め、小さなデータ セットでは DNN に優位性を与えます。
これらの結果を入力データの蒸留と最適化されたアンサンブルで拡張して、DNN のパフォーマンスが勾配ブースティングのパフォーマンスと同等またはそれを超えるようにします。
実用的な方法の理論的正当化として、古典的なクロスエントロピー知識の蒸留と同等であることを証明します。
また、小さなデータセットでの XGBoost に対する DNN アンサンブルの優位性を定性的に説明します。
1 秒あたり 400 万回の生産推論を行う業界のエンドツーエンドのリアルタイム ML プラットフォームのために、モデルのアンサンブルを単一の勾配ブースト モデルに抽出するデータ サンプリングに基づくモデル トレーニング ワークフローを開発します。
時間の推定、パフォーマンスの低下なし。
経験的評価は、提案された方法の組み合わせが、世界中に展開されたいくつかの本番アプリケーション全体で、以前の最良のモデルよりも一貫してモデルの精度を向上させることを示しています。
要約(オリジナル)
For tabular data sets, we explore data and model distillation, as well as data denoising. These techniques improve both gradient-boosting models and a specialized DNN architecture. While gradient boosting is known to outperform DNNs on tabular data, we close the gap for datasets with 100K+ rows and give DNNs an advantage on small data sets. We extend these results with input-data distillation and optimized ensembling to help DNN performance match or exceed that of gradient boosting. As a theoretical justification of our practical method, we prove its equivalence to classical cross-entropy knowledge distillation. We also qualitatively explain the superiority of DNN ensembles over XGBoost on small data sets. For an industry end-to-end real-time ML platform with 4M production inferences per second, we develop a model-training workflow based on data sampling that distills ensembles of models into a single gradient-boosting model favored for high-performance real-time inference, without performance loss. Empirical evaluation shows that the proposed combination of methods consistently improves model accuracy over prior best models across several production applications deployed worldwide.
arxiv情報
著者 | Chung-Wei Lee,Pavlos Athanasios Apostolopulos,Igor L. Markov |
発行日 | 2023-03-01 18:28:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google