Robust and Resource-Efficient Data-Free Knowledge Distillation by Generative Pseudo Replay

要約

データフリー知識蒸留 (KD) により、元のトレーニング データがない場合でも、トレーニングされたニューラル ネットワーク (教師) からよりコンパクトなニューラル ネットワーク (生徒) への知識の転送が可能になります。
既存の研究では、検証セットを使用して実際のデータに対する生徒の精度を監視し、プロセス全体を通じて最高のパフォーマンスを報告します。
ただし、蒸留時には検証データも利用できない可能性があるため、ピークの精度を達成した学生のスナップショットを記録することが不可能になります。
したがって、実用的なデータフリー KD メソッドは堅牢であり、理想的には蒸留中に単調増加するスチューデント精度を提供する必要があります。
合成データの分布の変化により学生は知識の低下を経験するため、これは困難です。
この問題を解決する簡単なアプローチは、生成されたサンプルを定期的に保存してリハーサルすることですが、これによりメモリ使用量が増加し、プライバシーの問題が生じます。
生成ネットワークを使用して、以前に観察された合成サンプルの分布をモデル化することを提案します。
特に、合成データ表現を最適に学習するようにカスタマイズされたトレーニング目標を備えた変分オートエンコーダー (VAE) を設計します。
学生は、VAE によって生成されたサンプルを使用して、生成疑似リプレイ技術によってリハーサルを受けます。
したがって、サンプルを保存しなくても知識の劣化を防ぐことができます。
画像分類ベンチマークの実験では、私たちの方法が、サンプル保存方法によって発生する大きなメモリ オーバーヘッドを排除しながら、抽出されたモデルの精度の期待値を最適化することが示されています。

要約(オリジナル)

Data-Free Knowledge Distillation (KD) allows knowledge transfer from a trained neural network (teacher) to a more compact one (student) in the absence of original training data. Existing works use a validation set to monitor the accuracy of the student over real data and report the highest performance throughout the entire process. However, validation data may not be available at distillation time either, making it infeasible to record the student snapshot that achieved the peak accuracy. Therefore, a practical data-free KD method should be robust and ideally provide monotonically increasing student accuracy during distillation. This is challenging because the student experiences knowledge degradation due to the distribution shift of the synthetic data. A straightforward approach to overcome this issue is to store and rehearse the generated samples periodically, which increases the memory footprint and creates privacy concerns. We propose to model the distribution of the previously observed synthetic samples with a generative network. In particular, we design a Variational Autoencoder (VAE) with a training objective that is customized to learn the synthetic data representations optimally. The student is rehearsed by the generative pseudo replay technique, with samples produced by the VAE. Hence knowledge degradation can be prevented without storing any samples. Experiments on image classification benchmarks show that our method optimizes the expected value of the distilled model accuracy while eliminating the large memory overhead incurred by the sample-storing methods.

arxiv情報

著者 Kuluhan Binici,Shivam Aggarwal,Nam Trung Pham,Karianto Leman,Tulika Mitra
発行日 2024-07-29 13:57:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク