CNN Mixture-of-Depths

要約

畳み込みニューラル ネットワーク (CNN) 向けの深度混合 (MoD) を紹介します。これは、現在の予測との関連性に基づいてチャネルを選択的に処理することで CNN の計算効率を向上させる新しいアプローチです。
この方法では、関連性の低いチャネルをスキップしながら、畳み込みブロック (Conv-Block) 内で集中的に処理するための特徴マップ内のキー チャネルを動的に選択することで、計算リソースを最適化します。
動的計算グラフを必要とする条件付き計算方法とは異なり、CNN MoD は固定テンソル サイズの静的計算グラフを使用するため、ハードウェア効率が向上します。
カスタマイズされた CUDA カーネル、固有の損失関数、または微調整を必要とせずに、トレーニングと推論のプロセスが高速化されます。
CNN MoD は、推論時間、GMAC、パラメータを削減して従来の CNN のパフォーマンスと同等にするか、同様の推論時間、GMAC、パラメータを維持しながらそのパフォーマンスを上回ります。
たとえば、ImageNet では、ResNet86-MoD は標準 ResNet50 のパフォーマンスを 0.45% 上回り、CPU で 6%、GPU で 5% 高速化します。
さらに、ResNet75-MoD は、CPU で 25%、GPU で 15% 高速化され、ResNet50 と同じパフォーマンスを実現します。

要約(オリジナル)

We introduce Mixture-of-Depths (MoD) for Convolutional Neural Networks (CNNs), a novel approach that enhances the computational efficiency of CNNs by selectively processing channels based on their relevance to the current prediction. This method optimizes computational resources by dynamically selecting key channels in feature maps for focused processing within the convolutional blocks (Conv-Blocks), while skipping less relevant channels. Unlike conditional computation methods that require dynamic computation graphs, CNN MoD uses a static computation graph with fixed tensor sizes which improve hardware efficiency. It speeds up the training and inference processes without the need for customized CUDA kernels, unique loss functions, or finetuning. CNN MoD either matches the performance of traditional CNNs with reduced inference times, GMACs, and parameters, or exceeds their performance while maintaining similar inference times, GMACs, and parameters. For example, on ImageNet, ResNet86-MoD exceeds the performance of the standard ResNet50 by 0.45% with a 6% speedup on CPU and 5% on GPU. Moreover, ResNet75-MoD achieves the same performance as ResNet50 with a 25% speedup on CPU and 15% on GPU.

arxiv情報

著者 Rinor Cakaj,Jens Mehnert,Bin Yang
発行日 2024-09-25 15:19:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク