Practical Knowledge Distillation: Using DNNs to Beat DNNs


表形式のデータ セットについては、データの探索とモデルの蒸留、およびデータのノイズ除去を行います。
これらの手法は、勾配ブースティング モデルと特殊な DNN アーキテクチャの両方を改善します。
勾配ブースティングは、表形式のデータでは DNN よりも優れていることが知られていますが、10 万行以上のデータセットのギャップを埋め、小さなデータ セットでは DNN に優位性を与えます。
これらの結果を入力データの蒸留と最適化されたアンサンブルで拡張して、DNN のパフォーマンスが勾配ブースティングのパフォーマンスと同等またはそれを超えるようにします。
また、小さなデータセットでの XGBoost に対する DNN アンサンブルの優位性を定性的に説明します。
1 秒あたり 400 万回の生産推論を行う業界のエンドツーエンドのリアルタイム ML プラットフォームのために、モデルのアンサンブルを単一の勾配ブースト モデルに抽出するデータ サンプリングに基づくモデル トレーニング ワークフローを開発します。


For tabular data sets, we explore data and model distillation, as well as data denoising. These techniques improve both gradient-boosting models and a specialized DNN architecture. While gradient boosting is known to outperform DNNs on tabular data, we close the gap for datasets with 100K+ rows and give DNNs an advantage on small data sets. We extend these results with input-data distillation and optimized ensembling to help DNN performance match or exceed that of gradient boosting. As a theoretical justification of our practical method, we prove its equivalence to classical cross-entropy knowledge distillation. We also qualitatively explain the superiority of DNN ensembles over XGBoost on small data sets. For an industry end-to-end real-time ML platform with 4M production inferences per second, we develop a model-training workflow based on data sampling that distills ensembles of models into a single gradient-boosting model favored for high-performance real-time inference, without performance loss. Empirical evaluation shows that the proposed combination of methods consistently improves model accuracy over prior best models across several production applications deployed worldwide.


著者 Chung-Wei Lee,Pavlos Athanasios Apostolopulos,Igor L. Markov
発行日 2023-03-01 18:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG パーマリンク