要約
最近、スパース トレーニングは、エッジ デバイスでの効率的なディープ ラーニングの有望なパラダイムとして浮上しています。
現在の研究は主に、モデルのスパース性をさらに高めることでトレーニング コストを削減することに力を注いでいます。
ただし、スパース性を高めることは常に理想的とは限りません。これは、非常に高いスパース性レベルで深刻な精度の低下が避けられないためです。
このホワイト ペーパーでは、精度を維持しながらスパース トレーニング コストを効果的かつ効率的に削減するための他の可能な方向性を探ることを目的としています。
この目的のために、レイヤーの凍結とデータのふるい分けという 2 つの手法を調査します。
まず、レイヤー凍結アプローチは、密なモデルのトレーニングと微調整で成功を収めていますが、疎なトレーニング ドメインでは採用されていません。
それにもかかわらず、スパーストレーニングのユニークな特性は、レイヤー凍結技術の組み込みを妨げる可能性があります.
したがって、スパーストレーニングで層凍結技術を使用することの実現可能性と可能性を分析し、かなりのトレーニングコストを節約できる可能性があることを発見しました。
次に、データセット効率の高いトレーニングのためのデータふるい分け方法を提案します。これは、トレーニング プロセス全体で部分的なデータセットのみが使用されるようにすることで、トレーニング コストをさらに削減します。
両方の手法をスパース トレーニング アルゴリズムにうまく組み込んで、SpFDE と名付けた汎用フレームワークを形成できることを示します。
私たちの広範な実験は、SpFDE が 3 つの次元 (重みのスパース性、層の凍結、およびデータセットのふるい分け) からの精度を維持しながら、トレーニング コストを大幅に削減できることを示しています。
要約(オリジナル)
Recently, sparse training has emerged as a promising paradigm for efficient deep learning on edge devices. The current research mainly devotes efforts to reducing training costs by further increasing model sparsity. However, increasing sparsity is not always ideal since it will inevitably introduce severe accuracy degradation at an extremely high sparsity level. This paper intends to explore other possible directions to effectively and efficiently reduce sparse training costs while preserving accuracy. To this end, we investigate two techniques, namely, layer freezing and data sieving. First, the layer freezing approach has shown its success in dense model training and fine-tuning, yet it has never been adopted in the sparse training domain. Nevertheless, the unique characteristics of sparse training may hinder the incorporation of layer freezing techniques. Therefore, we analyze the feasibility and potentiality of using the layer freezing technique in sparse training and find it has the potential to save considerable training costs. Second, we propose a data sieving method for dataset-efficient training, which further reduces training costs by ensuring only a partial dataset is used throughout the entire training process. We show that both techniques can be well incorporated into the sparse training algorithm to form a generic framework, which we dub SpFDE. Our extensive experiments demonstrate that SpFDE can significantly reduce training costs while preserving accuracy from three dimensions: weight sparsity, layer freezing, and dataset sieving.
arxiv情報
著者 | Geng Yuan,Yanyu Li,Sheng Li,Zhenglun Kong,Sergey Tulyakov,Xulong Tang,Yanzhi Wang,Jian Ren |
発行日 | 2022-09-22 17:45:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google