Optimal Brain Apoptosis

要約

畳み込みニューラルネットワーク(CNN)とトランスフォーマーの複雑化とパラメータ数の増加は、計算効率とリソース需要の点で課題を提起している。プルーニングは、ニューロン、チャネル、接続などの冗長な要素を削除することにより、性能を大きく損なうことなく計算効率を向上させ、これらの課題に対処する効果的な戦略であることが確認されている。本論文では、Optimal Brain Damage (OBD)の基礎的研究を基に、ヘシアン行列を用いたパラメータ重要度推定の方法論を発展させる。近似に頼ったこれまでのアプローチとは異なり、各パラメータのヘシアンベクトル積値を直接計算する新しい刈り込み手法であるOptimal Brain Apoptosis (OBA)を導入する。ネットワーク層間のヘシアン行列を分解し、層間のヘシアン部分行列が0でない条件を特定することで、パラメータの2次テイラー展開を計算する非常に効率的な手法を提案する。この手法により、特にCNNやTransformerの文脈において、より正確な刈り込み処理が可能となり、CIFAR10、CIFAR100、ImagenetデータセットにおけるVGG19、ResNet32、ResNet50、ViT-B/16などの実験で検証された。コードはhttps://github.com/NEU-REAL/OBA。

要約(オリジナル)

The increasing complexity and parameter count of Convolutional Neural Networks (CNNs) and Transformers pose challenges in terms of computational efficiency and resource demands. Pruning has been identified as an effective strategy to address these challenges by removing redundant elements such as neurons, channels, or connections, thereby enhancing computational efficiency without heavily compromising performance. This paper builds on the foundational work of Optimal Brain Damage (OBD) by advancing the methodology of parameter importance estimation using the Hessian matrix. Unlike previous approaches that rely on approximations, we introduce Optimal Brain Apoptosis (OBA), a novel pruning method that calculates the Hessian-vector product value directly for each parameter. By decomposing the Hessian matrix across network layers and identifying conditions under which inter-layer Hessian submatrices are non-zero, we propose a highly efficient technique for computing the second-order Taylor expansion of parameters. This approach allows for a more precise pruning process, particularly in the context of CNNs and Transformers, as validated in our experiments including VGG19, ResNet32, ResNet50, and ViT-B/16 on CIFAR10, CIFAR100 and Imagenet datasets. Our code is available at https://github.com/NEU-REAL/OBA.

arxiv情報

著者 Mingyuan Sun,Zheng Fang,Jiaxu Wang,Junjie Jiang,Delei Kong,Chenming Hu,Yuetong Fang,Renjing Xu
発行日 2025-03-03 12:00:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク