Latency-aware Spatial-wise Dynamic Networks

要約

空間的な動的畳み込みは、ディープ ネットワークの推論効率を改善するための有望なアプローチになりました。
このような適応推論パラダイムは、最も有益なピクセルにより多くの計算を割り当てることで、画像の特徴の空間的な冗長性を減らし、不要な計算を大幅に節約します。
ただし、以前の方法で達成された理論上の効率は、特にマルチコア プロセッサ (GPU など) では、現実的な速度向上にはほとんど変換できません。
重要な課題は、既存の文献が最小限の計算でアルゴリズムを設計することにのみ焦点を当てており、実際のレイテンシがスケジューリング戦略やハードウェア プロパティによっても影響を受ける可能性があるという事実を無視していることです。
理論上の計算と実際の効率の間のギャップを埋めるために、新しいレイテンシ予測モデルのガイダンスの下で粗粒度の空間適応推論を実行する、レイテンシを意識した空間的動的ネットワーク (LASNet) を提案します。
レイテンシ予測モデルは、アルゴリズム、スケジューリング戦略、およびハードウェア プロパティを同時に考慮することにより、動的ネットワークの推論レイテンシを効率的に推定できます。
レイテンシ プレディクタを使用して、さまざまなハードウェア プラットフォームでのアルゴリズム設計とスケジューリングの最適化の両方をガイドします。
画像分類、オブジェクト検出、およびインスタンス セグメンテーションに関する実験は、提案されたフレームワークがディープ ネットワークの実際の推論効率を大幅に改善することを示しています。
たとえば、ImageNet 検証セットでの ResNet-101 の平均レイテンシは、精度を犠牲にすることなく、サーバー GPU (Nvidia Tesla-V100) とエッジ デバイス (Nvidia Jetson TX2 GPU) でそれぞれ 36% と 46% 削減できます。
.
コードは https://github.com/LeapLabTHU/LASNet で入手できます。

要約(オリジナル)

Spatial-wise dynamic convolution has become a promising approach to improving the inference efficiency of deep networks. By allocating more computation to the most informative pixels, such an adaptive inference paradigm reduces the spatial redundancy in image features and saves a considerable amount of unnecessary computation. However, the theoretical efficiency achieved by previous methods can hardly translate into a realistic speedup, especially on the multi-core processors (e.g. GPUs). The key challenge is that the existing literature has only focused on designing algorithms with minimal computation, ignoring the fact that the practical latency can also be influenced by scheduling strategies and hardware properties. To bridge the gap between theoretical computation and practical efficiency, we propose a latency-aware spatial-wise dynamic network (LASNet), which performs coarse-grained spatially adaptive inference under the guidance of a novel latency prediction model. The latency prediction model can efficiently estimate the inference latency of dynamic networks by simultaneously considering algorithms, scheduling strategies, and hardware properties. We use the latency predictor to guide both the algorithm design and the scheduling optimization on various hardware platforms. Experiments on image classification, object detection and instance segmentation demonstrate that the proposed framework significantly improves the practical inference efficiency of deep networks. For example, the average latency of a ResNet-101 on the ImageNet validation set could be reduced by 36% and 46% on a server GPU (Nvidia Tesla-V100) and an edge device (Nvidia Jetson TX2 GPU) respectively without sacrificing the accuracy. Code is available at https://github.com/LeapLabTHU/LASNet.

arxiv情報

著者 Yizeng Han,Zhihang Yuan,Yifan Pu,Chenhao Xue,Shiji Song,Guangyu Sun,Gao Huang
発行日 2022-10-12 14:09:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク