Learning Sparse Neural Networks with Identity Layers

要約

ディープ ニューラル ネットワークのスパース性は、パフォーマンスを最大化し、過剰パラメータ化されたネットワークのサイズを可能な限り削減するために、よく調査されています。
既存の方法は、しきい値とメトリクスを使用して、トレーニング プロセスでパラメーターを枝刈りすることに重点を置いています。
一方、異なるレイヤ間の機能の類似性についてはこれまで十分に議論されていませんでしたが、この論文ではネットワークの疎性と高い相関があることが厳密に証明される可能性があります。
過パラメータ化モデルにおける層間特徴の類似性に着想を得て、ネットワークの疎性と層間特徴の類似性の間の本質的な関係を調査します。
具体的には、情報ボトルネック理論を使用して、Centered Kernel Alignment (CKA) に基づいて層間機能の類似性を低減すると、ネットワークのスパース性が向上することを証明します。
このような理論を適用して、CKA-SR と呼ばれる、スパース ネットワーク トレーニング用のプラグ アンド プレイ CKA ベースのスパース正則化を提案します。これは、CKA を利用して層間の特徴の類似性を減らし、ネットワークのスパース性を高めます。
言い換えれば、疎なネットワークの各層は、相互に比較して独自のアイデンティティを持つ傾向があります。
実験的に、提案された CKA-SR をスパース ネットワーク トレーニング法のトレーニング プロセスに組み込んだところ、CKA-SR がいくつかの最先端のスパース トレーニング法のパフォーマンスを、特に非常に高いスパース性で一貫して向上させることがわかりました。
コードは補足資料に含まれています。

要約(オリジナル)

The sparsity of Deep Neural Networks is well investigated to maximize the performance and reduce the size of overparameterized networks as possible. Existing methods focus on pruning parameters in the training process by using thresholds and metrics. Meanwhile, feature similarity between different layers has not been discussed sufficiently before, which could be rigorously proved to be highly correlated to the network sparsity in this paper. Inspired by interlayer feature similarity in overparameterized models, we investigate the intrinsic link between network sparsity and interlayer feature similarity. Specifically, we prove that reducing interlayer feature similarity based on Centered Kernel Alignment (CKA) improves the sparsity of the network by using information bottleneck theory. Applying such theory, we propose a plug-and-play CKA-based Sparsity Regularization for sparse network training, dubbed CKA-SR, which utilizes CKA to reduce feature similarity between layers and increase network sparsity. In other words, layers of our sparse network tend to have their own identity compared to each other. Experimentally, we plug the proposed CKA-SR into the training process of sparse network training methods and find that CKA-SR consistently improves the performance of several State-Of-The-Art sparse training methods, especially at extremely high sparsity. Code is included in the supplementary materials.

arxiv情報

著者 Mingjian Ni,Guangyao Chen,Xiawu Zheng,Peixi Peng,Li Yuan,Yonghong Tian
発行日 2023-07-14 14:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク