要約
性能を向上させるために、ディープニューラルネットワークはより深い、あるいはより広いネットワーク構造を必要とし、膨大な計算量とメモリコストがかかる。この問題を解決するために、自己知識蒸留法は、モデル自身の内部知識を蒸留することでモデルを正則化します。従来の自己知識蒸留法では、学習可能なパラメータを追加する必要があったり、データに依存したりする。本論文では、ドロップアウトを用いたシンプルかつ効果的な自己知識蒸留法(SD-Dropout)を提案する。SD-Dropoutはドロップアウトサンプリングにより、複数のモデルの事後分布を蒸留する。本手法は、学習可能なモジュールを追加する必要がなく、データに依存せず、簡単な操作のみで実現可能である。さらに、このシンプルな手法は、様々な自己知識蒸留アプローチと容易に組み合わせることができる。我々は、本研究において、順方向および逆方向のKL-発散の効果について、理論的および実験的な分析を行う。様々な視覚タスク、すなわち、画像分類、物体検出、分布シフトに関する広範な実験により、提案手法は単一のネットワークの汎化性を効果的に改善できることが示される。さらに、提案手法は、校正性能、敵対的ロバスト性、分布外検出能力も向上させることを実験により示す。
要約(オリジナル)
To boost the performance, deep neural networks require deeper or wider network structures that involve massive computational and memory costs. To alleviate this issue, the self-knowledge distillation method regularizes the model by distilling the internal knowledge of the model itself. Conventional self-knowledge distillation methods require additional trainable parameters or are dependent on the data. In this paper, we propose a simple and effective self-knowledge distillation method using a dropout (SD-Dropout). SD-Dropout distills the posterior distributions of multiple models through a dropout sampling. Our method does not require any additional trainable modules, does not rely on data, and requires only simple operations. Furthermore, this simple method can be easily combined with various self-knowledge distillation approaches. We provide a theoretical and experimental analysis of the effect of forward and reverse KL-divergences in our work. Extensive experiments on various vision tasks, i.e., image classification, object detection, and distribution shift, demonstrate that the proposed method can effectively improve the generalization of a single network. Further experiments show that the proposed method also improves calibration performance, adversarial robustness, and out-of-distribution detection ability.
arxiv情報
著者 | Hyoje Lee,Yeachan Park,Hyun Seo,Myungjoo Kang |
発行日 | 2022-08-11 05:08:55+00:00 |
arxivサイト | arxiv_id(pdf) |