要約
ニューラルネットワークの最適なサイズを決定することは、実行時のパフォーマンスとメモリ使用量に直接影響するため、非常に重要です。プルーニングは、精度の維持を数学的に保証しながらニューラルネットワークのサイズを縮小する、確立されたモデル圧縮手法です。しかし、最近の刈り込み手法の多くは、個々のモデル構成要素の大域的な寄与を見落としており、刈り込まれたモデルが所望のデータセットと性能要件を満たすことを保証することが困難である。このような課題に対処するため、我々は、ベクトルの類似性を通じて相互情報を活用する新しい刈り込みアルゴリズムMPrunerを開発した。MPrunerは、CKA(Centered Kernel Alignment)類似性メトリックを用いたレイヤークラスタリングを利用し、より正確で効率的なレイヤごとの刈り込みのために、ニューラルネットワークからグローバルな情報を取り込むことを可能にする。さまざまなアーキテクチャと構成でMPrunerを評価し、その汎用性を実証するとともに、実用的なガイドラインを提供しました。MPrunerは、CNNと変換器ベースのモデルにおいて、精度をほとんど損なうことなく、パラメータとメモリ使用量を最大50%削減しました。
要約(オリジナル)
Determining the optimal size of a neural network is critical, as it directly impacts runtime performance and memory usage. Pruning is a well-established model compression technique that reduces the size of neural networks while mathematically guaranteeing accuracy preservation. However, many recent pruning methods overlook the global contributions of individual model components, making it difficult to ensure that a pruned model meets the desired dataset and performance requirements. To address these challenges, we developed a new pruning algorithm, MPruner, that leverages mutual information through vector similarity. MPruner utilizes layer clustering with the Centered Kernel Alignment (CKA) similarity metric, allowing us to incorporate global information from the neural network for more precise and efficient layer-wise pruning. We evaluated MPruner across various architectures and configurations, demonstrating its versatility and providing practical guidelines. MPruner achieved up to a 50% reduction in parameters and memory usage for CNN and transformer-based models, with minimal to no loss in accuracy.
arxiv情報
著者 | Seungbeom Hu,ChanJun Park,Andrew Ferraiuolo,Sang-Ki Ko,Jinwoo Kim,Haein Song,Jieung Kim |
発行日 | 2024-09-03 00:48:37+00:00 |
arxivサイト | arxiv_id(pdf) |