Progressive Knowledge Distillation: Building Ensembles for Efficient Inference

要約

漸進的蒸留の問題を研究します。事前にトレーニングされた大規模な教師モデル $g$ が与えられた場合、モデルを分解して、より小さく、推論コストの低い生徒モデル $f_i$ の集合体にしようとします。
結果として得られるアンサンブルにより、精度と推論コストを柔軟に調整できます。これは、オンデバイス推論の多くのアプリケーションに役立ちます。
私たちが提案する方法、B-DISTIL は、$g$ と同様のパフォーマンスを備えた表現力豊かなアンサンブルを構築するために中間活性化に関数合成を使用するアルゴリズム手順に依存していますが、学生モデルははるかに小さくなっています。
標準的な画像、音声、およびセンサー データセット全体で事前トレーニング済みのモデルを分解することにより、\algA の有効性を実証します。
また、収束と一般化の観点から、私たちの方法に理論的な保証を提供します。

要約(オリジナル)

We study the problem of progressive distillation: Given a large, pre-trained teacher model $g$, we seek to decompose the model into an ensemble of smaller, low-inference cost student models $f_i$. The resulting ensemble allows for flexibly tuning accuracy vs. inference cost, which is useful for a number of applications in on-device inference. The method we propose, B-DISTIL, relies on an algorithmic procedure that uses function composition over intermediate activations to construct expressive ensembles with similar performance as $g$, but with much smaller student models. We demonstrate the effectiveness of \algA by decomposing pretrained models across standard image, speech, and sensor datasets. We also provide theoretical guarantees for our method in terms of convergence and generalization.

arxiv情報

著者 Don Kurian Dennis,Abhishek Shetty,Anish Sevekari,Kazuhito Koishida,Virginia Smith
発行日 2023-02-20 16:57:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク