Progressive Ensemble Distillation: Building Ensembles for Efficient Inference

要約

我々は、漸進的アンサンブル蒸留の問題を研究します。大規模な事前学習済み教師モデル $g$ が与えられた場合、モデルをより小さく推論コストの低い学生モデル $f_i$ に分解しようとします。その結果、このアンサンブル内の追加モデルを漸進的に評価すると、
予測が改善されました。
結果として得られるアンサンブルにより、実行時に精度と推論コストを柔軟に調整できるため、オンデバイス推論の多くのアプリケーションに役立ちます。
私たちが提案する B-DISTIL 手法は、中間アクティベーション上で関数合成を使用するアルゴリズム手順に依存し、 $g$ と同様のパフォーマンスを持つ表現力豊かなアンサンブルを構築しますが、スチューデント モデルは小規模です。
標準的な画像、音声、センサーのデータセットにわたって事前トレーニング済みモデルを分解することで、B-DISTIL の有効性を実証します。
また、収束と一般化の観点から理論的な保証も提供します。

要約(オリジナル)

We study the problem of progressive ensemble distillation: Given a large, pretrained teacher model $g$, we seek to decompose the model into smaller, low-inference cost student models $f_i$, such that progressively evaluating additional models in this ensemble leads to improved predictions. The resulting ensemble allows for flexibly tuning accuracy vs. inference cost at runtime, which is useful for a number of applications in on-device inference. The method we propose, B-DISTIL , relies on an algorithmic procedure that uses function composition over intermediate activations to construct expressive ensembles with similar performance as $g$ , but with smaller student models. We demonstrate the effectiveness of B-DISTIL by decomposing pretrained models across standard image, speech, and sensor datasets. We also provide theoretical guarantees in terms of convergence and generalization.

arxiv情報

著者 Don Kurian Dennis,Abhishek Shetty,Anish Sevekari,Kazuhito Koishida,Virginia Smith
発行日 2023-11-09 18:31:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク