Weight Averaging Improves Knowledge Distillation under Domain Shift

要約

知識蒸留 (KD) は、実際の深層学習アプリケーションで広く使用されている強力なモデル圧縮手法です。
これは、大規模な教師ネットワークを模倣するために小規模な生徒ネットワークをトレーニングすることに重点を置いています。
KD が i.i.d 設定における学生の汎化を改善できることは広く知られていますが、ドメイン シフト下での KD のパフォーマンス、つまり、トレーニング中に表示されないドメインからのデータに対する学生ネットワークのパフォーマンスは、文献ではほとんど注目されていません。
この論文では、知識の蒸留と領域の一般化という研究分野の橋渡しに向けた一歩を踏み出します。
SWAD や SMA などのドメイン一般化文献で提案されている重み平均化手法も、ドメイン シフト下での知識蒸留のパフォーマンスを向上させることを示します。
さらに、トレーニング中に検証データの評価を必要としない単純化された重み平均戦略を提案し、KD に適用した場合に SWAD および SMA と同等のパフォーマンスを発揮することを示します。
私たちは、最終的な蒸留アプローチを重量平均知識蒸留 (WAKD) と名付けています。

要約(オリジナル)

Knowledge distillation (KD) is a powerful model compression technique broadly used in practical deep learning applications. It is focused on training a small student network to mimic a larger teacher network. While it is widely known that KD can offer an improvement to student generalization in i.i.d setting, its performance under domain shift, i.e. the performance of student networks on data from domains unseen during training, has received little attention in the literature. In this paper we make a step towards bridging the research fields of knowledge distillation and domain generalization. We show that weight averaging techniques proposed in domain generalization literature, such as SWAD and SMA, also improve the performance of knowledge distillation under domain shift. In addition, we propose a simplistic weight averaging strategy that does not require evaluation on validation data during training and show that it performs on par with SWAD and SMA when applied to KD. We name our final distillation approach Weight-Averaged Knowledge Distillation (WAKD).

arxiv情報

著者 Valeriy Berezovskiy,Nikita Morozov
発行日 2023-09-20 16:23:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク