要約
ディープ ニューラル ネットワークの優れたパフォーマンスには通常、多数のパラメーターと計算が伴うため、リソースが限られたエッジ デバイスでの使用は制限されています。
この問題に対処するために、ニューラル ネットワークを圧縮するための枝刈り、量子化、知識蒸留などの豊富な方法が提案され、大きな進歩を遂げてきました。
ただし、これらの圧縮方法のほとんどは、ニューラル ネットワークのアーキテクチャまたはトレーニング方法に焦点を当てており、データ拡張による影響は無視されています。
このペーパーでは、モデル圧縮におけるデータ拡張の使用法を再検討し、モデルのサイズとその最適なデータ拡張ポリシーの関係について包括的な研究を行います。
要約すると、主に次の 3 つの観察結果が得られます。 (A) 異なるサイズのモデルは、異なる大きさのデータ拡張を好みます。
したがって、反復的な枝刈りでは、さまざまな規模のデータ拡張の方が、一貫した規模のデータ拡張よりもパフォーマンスが向上します。
(B) 規模の大きいデータ拡張は、大規模モデルのパフォーマンスを大幅に向上させる可能性がありますが、小規模モデルのパフォーマンスを損なう可能性があります。
幸いなことに、小規模なモデルでも、最初に「追加パラメーター」を使用してモデルを学習し、推論中にこれらの「追加パラメーター」を破棄することで、強力なデータ拡張の恩恵を受けることができます。
(C) 事前トレーニングされた大規模モデルの予測を利用して、データ拡張の難易度を測定できます。
したがって、より良いデータ拡張ポリシーを設計するための基準として利用できます。
この論文がモデル圧縮におけるデータ拡張の使用法に関するさらなる研究を促進することを願っています。
要約(オリジナル)
The excellent performance of deep neural networks is usually accompanied by a large number of parameters and computations, which have limited their usage on the resource-limited edge devices. To address this issue, abundant methods such as pruning, quantization and knowledge distillation have been proposed to compress neural networks and achieved significant breakthroughs. However, most of these compression methods focus on the architecture or the training method of neural networks but ignore the influence from data augmentation. In this paper, we revisit the usage of data augmentation in model compression and give a comprehensive study on the relation between model sizes and their optimal data augmentation policy. To sum up, we mainly have the following three observations: (A) Models in different sizes prefer data augmentation with different magnitudes. Hence, in iterative pruning, data augmentation with varying magnitudes leads to better performance than data augmentation with a consistent magnitude. (B) Data augmentation with a high magnitude may significantly improve the performance of large models but harm the performance of small models. Fortunately, small models can still benefit from strong data augmentations by firstly learning them with ‘additional parameters’ and then discard these ‘additional parameters’ during inference. (C) The prediction of a pre-trained large model can be utilized to measure the difficulty of data augmentation. Thus it can be utilized as a criterion to design better data augmentation policies. We hope this paper may promote more research on the usage of data augmentation in model compression.
arxiv情報
著者 | Muzhou Yu,Linfeng Zhang,Kaisheng Ma |
発行日 | 2023-05-22 17:05:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google