Multi-teacher knowledge distillation as an effective method for compressing ensembles of neural networks

要約

深層学習は、近年の人工知能の多くの成功に大きく貢献しています。
現在、数千のレイヤーと数千億のパラメーターを持つモデルをトレーニングすることが可能です。
大規模な深層モデルは大きな成功を収めていますが、膨大な計算の複雑さと巨大なストレージ要件により、リアルタイム アプリケーションでそれらを実装することは非常に困難です。
一方、データセットのサイズは、多くの分野で依然として大きな問題となっています。
多くの場合、データは欠落している、コストが高すぎる、または他の理由で取得できない。
アンサンブル学習は、小さなデータセットとオーバーフィッティングの問題を部分的に解決します。
ただし、基本バージョンのアンサンブル学習では、計算の複雑さが直線的に増加します。
アンサンブル決定融合メカニズムの影響を分析し、投票アルゴリズムを含む決定を共有するさまざまな方法を確認しました。
修正された知識蒸留フレームワークを決定融合メカニズムとして使用しました。これにより、アンサンブルモデル全体を単一モデルの重み空間にさらに圧縮できます。
知識の蒸留により、複数の教師からの知識を 1 つの生徒モデルのみに集約し、同じ計算の複雑さで、標準的な方法でトレーニングされたモデルよりも優れたパフォーマンスのモデルを取得できることを示しました。
私たちは、すべての教師の反応を同時に、同時に模倣するための独自の方法を開発しました。
これらのソリューションをいくつかのベンチマーク データセットでテストしました。
最後に、効率的な複数教師の知識抽出フレームワークの幅広いアプリケーションの使用を紹介しました。
最初の例では、知識の蒸留を使用して、航空機胴体の腐食検出を自動化できるモデルを開発しました。
2 番目の例では、森林での山火事に対処するための監視カメラでの煙の検出について説明します。

要約(オリジナル)

Deep learning has contributed greatly to many successes in artificial intelligence in recent years. Today, it is possible to train models that have thousands of layers and hundreds of billions of parameters. Large-scale deep models have achieved great success, but the enormous computational complexity and gigantic storage requirements make it extremely difficult to implement them in real-time applications. On the other hand, the size of the dataset is still a real problem in many domains. Data are often missing, too expensive, or impossible to obtain for other reasons. Ensemble learning is partially a solution to the problem of small datasets and overfitting. However, ensemble learning in its basic version is associated with a linear increase in computational complexity. We analyzed the impact of the ensemble decision-fusion mechanism and checked various methods of sharing the decisions including voting algorithms. We used the modified knowledge distillation framework as a decision-fusion mechanism which allows in addition compressing of the entire ensemble model into a weight space of a single model. We showed that knowledge distillation can aggregate knowledge from multiple teachers in only one student model and, with the same computational complexity, obtain a better-performing model compared to a model trained in the standard manner. We have developed our own method for mimicking the responses of all teachers at the same time, simultaneously. We tested these solutions on several benchmark datasets. In the end, we presented a wide application use of the efficient multi-teacher knowledge distillation framework. In the first example, we used knowledge distillation to develop models that could automate corrosion detection on aircraft fuselage. The second example describes detection of smoke on observation cameras in order to counteract wildfires in forests.

arxiv情報

著者 Konrad Zuchniak
発行日 2023-02-14 17:40:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2.0 パーマリンク