要約
我々は、漸進的アンサンブル蒸留の問題を研究します。大規模な事前学習済み教師モデル $g$ が与えられた場合、モデルをより小さく推論コストの低い学生モデル $f_i$ に分解しようとします。その結果、このアンサンブル内の追加モデルを漸進的に評価すると、
予測が改善されました。
結果として得られるアンサンブルにより、実行時に精度と推論コストを柔軟に調整できるため、オンデバイス推論の多くのアプリケーションに役立ちます。
私たちが提案する B-DISTIL 手法は、中間アクティベーション上で関数合成を使用するアルゴリズム手順に依存し、 $g$ と同様のパフォーマンスを持つ表現力豊かなアンサンブルを構築しますが、スチューデント モデルは小規模です。
標準的な画像、音声、センサーのデータセットにわたって事前トレーニング済みモデルを分解することで、B-DISTIL の有効性を実証します。
また、収束と一般化の観点から理論的な保証も提供します。
要約(オリジナル)
We study the problem of progressive ensemble distillation: Given a large, pretrained teacher model $g$, we seek to decompose the model into smaller, low-inference cost student models $f_i$, such that progressively evaluating additional models in this ensemble leads to improved predictions. The resulting ensemble allows for flexibly tuning accuracy vs. inference cost at runtime, which is useful for a number of applications in on-device inference. The method we propose, B-DISTIL , relies on an algorithmic procedure that uses function composition over intermediate activations to construct expressive ensembles with similar performance as $g$ , but with smaller student models. We demonstrate the effectiveness of B-DISTIL by decomposing pretrained models across standard image, speech, and sensor datasets. We also provide theoretical guarantees in terms of convergence and generalization.
arxiv情報
著者 | Don Kurian Dennis,Abhishek Shetty,Anish Sevekari,Kazuhito Koishida,Virginia Smith |
発行日 | 2023-11-09 18:31:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google