Momentum Adversarial Distillation: Handling Large Distribution Shifts in Data-Free Knowledge Distillation

要約

Data-free Knowledge Distillation (DFKD) は、トレーニング データを使用せずに教師ネットワークから生徒ネットワークに知識を転送できる魅力的な機能により、最近注目を集めています。
主なアイデアは、ジェネレーターを使用して、学生をトレーニングするためのデータを合成することです。
ジェネレーターが更新されると、合成データの分布が変化します。
このような分布シフトは、ジェネレーターと生徒が敵対的に訓練された場合に大きくなり、生徒は前のステップで取得した知識を忘れてしまいます。
この問題を軽減するために、ジェネレーターの指数移動平均 (EMA) コピーを維持し、ジェネレーターと EMA ジェネレーターの両方からの合成サンプルを使用して学生をトレーニングする Momentum Adversarial Distillation (MAD) と呼ばれるシンプルで効果的な方法を提案します。
EMA ジェネレーターはジェネレーターの古いバージョンの集合体と見なすことができ、多くの場合、ジェネレーターと比較して更新の変更が小さいため、その合成サンプルのトレーニングは、学生が過去の知識を思い出すのに役立ち、学生があまりにも早く順応するのを防ぐことができます。
ジェネレーターの新しい更新。
ImageNet や Places365 などの大きなデータセットを含む 6 つのベンチマーク データセットでの実験では、大規模な分布シフトの問題を処理するための競合する方法よりも MAD の優れたパフォーマンスが実証されています。
私たちの方法はまた、既存の DFKD 方法と比較して有利であり、場合によっては最先端の結果を達成することさえあります。

要約(オリジナル)

Data-free Knowledge Distillation (DFKD) has attracted attention recently thanks to its appealing capability of transferring knowledge from a teacher network to a student network without using training data. The main idea is to use a generator to synthesize data for training the student. As the generator gets updated, the distribution of synthetic data will change. Such distribution shift could be large if the generator and the student are trained adversarially, causing the student to forget the knowledge it acquired at previous steps. To alleviate this problem, we propose a simple yet effective method called Momentum Adversarial Distillation (MAD) which maintains an exponential moving average (EMA) copy of the generator and uses synthetic samples from both the generator and the EMA generator to train the student. Since the EMA generator can be considered as an ensemble of the generator’s old versions and often undergoes a smaller change in updates compared to the generator, training on its synthetic samples can help the student recall the past knowledge and prevent the student from adapting too quickly to new updates of the generator. Our experiments on six benchmark datasets including big datasets like ImageNet and Places365 demonstrate the superior performance of MAD over competing methods for handling the large distribution shift problem. Our method also compares favorably to existing DFKD methods and even achieves state-of-the-art results in some cases.

arxiv情報

著者 Kien Do,Hung Le,Dung Nguyen,Dang Nguyen,Haripriya Harikumar,Truyen Tran,Santu Rana,Svetha Venkatesh
発行日 2022-09-21 13:53:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク