Rethinking Data Distillation: Do Not Overlook Calibration

要約

抽出されたデータに基づいてトレーニングされたニューラル ネットワークは、多くの場合、自信過剰な出力を生成するため、キャリブレーション方法による修正が必要になります。
温度スケーリングやミックスアップなどの既存のキャリブレーション手法は、元の大規模データでトレーニングされたネットワークにはうまく機能します。
ただし、これらの方法では、大規模なソース データセットから抽出されたデータに基づいてトレーニングされたネットワークを調整できないことがわかりました。
この論文では、(i) 最大ロジットのより集中した分布、および (ii) 意味的に意味があるが分類タスクとは関係のない情報の損失により、蒸留されたデータが調整不可能なネットワークにつながることを示します。
この問題に対処するために、蒸留データの制限を緩和し、データセット蒸留の効率を維持しながらより良いキャリブレーション結果を達成するマスク温度スケーリング (MTS) とマスク蒸留トレーニング (MDT) を提案します。

要約(オリジナル)

Neural networks trained on distilled data often produce over-confident output and require correction by calibration methods. Existing calibration methods such as temperature scaling and mixup work well for networks trained on original large-scale data. However, we find that these methods fail to calibrate networks trained on data distilled from large source datasets. In this paper, we show that distilled data lead to networks that are not calibratable due to (i) a more concentrated distribution of the maximum logits and (ii) the loss of information that is semantically meaningful but unrelated to classification tasks. To address this problem, we propose Masked Temperature Scaling (MTS) and Masked Distillation Training (MDT) which mitigate the limitations of distilled data and achieve better calibration results while maintaining the efficiency of dataset distillation.

arxiv情報

著者 Dongyao Zhu,Bowen Lei,Jie Zhang,Yanbo Fang,Ruqi Zhang,Yiqun Xie,Dongkuan Xu
発行日 2023-08-21 16:16:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク