要約
動的計算は、ディープネットワークの推論効率を向上させる有望な手段として浮上しています。
これにより、計算ユニットを選択的にアクティブ化できるため、各入力サンプルの不必要な計算が削減されます。
ただし、これらの動的モデルの実際の効率は理論的な予測から逸脱する可能性があります。
この不一致は次のことから生じます。1) 断片的な研究による統一されたアプローチの欠如。
2) 特に CUDA 対応 GPU コンテキストにおいて、重要なスケジューリング戦略よりもアルゴリズム設計に重点を置く。
3) ほとんどのライブラリが静的操作に対応していることを考慮すると、実際のレイテンシを測定する際の課題。
これらの問題に対処するために、私たちは、空間適応計算、動的レイヤー スキッピング、動的チャネル スキッピングという 3 つの主要な動的パラダイムを統合するフレームワークである Latency-Aware Unified Dynamic Networks (LAUDNet) を発表します。
理論的効率と実際的な効率のギャップを埋めるために、LAUDNet は、動的なオペレーターの待ち時間を正確に測定する待ち時間予測機能に基づいて、アルゴリズム設計とスケジューリングの最適化を統合します。
LAUDNet を複数のビジョン タスクにわたってテストし、V100、RTX3090、TX2 GPU などのプラットフォーム上で ResNet-101 などのモデルのレイテンシを 50% 以上大幅に削減できる能力を実証しました。
特に、LAUDNet は精度と効率のバランスにおいて優れています。
コードは https://www.github.com/LeapLabTHU/LAUDNet から入手できます。
要約(オリジナル)
Dynamic computation has emerged as a promising avenue to enhance the inference efficiency of deep networks. It allows selective activation of computational units, leading to a reduction in unnecessary computations for each input sample. However, the actual efficiency of these dynamic models can deviate from theoretical predictions. This mismatch arises from: 1) the lack of a unified approach due to fragmented research; 2) the focus on algorithm design over critical scheduling strategies, especially in CUDA-enabled GPU contexts; and 3) challenges in measuring practical latency, given that most libraries cater to static operations. Addressing these issues, we unveil the Latency-Aware Unified Dynamic Networks (LAUDNet), a framework that integrates three primary dynamic paradigms-spatially adaptive computation, dynamic layer skipping, and dynamic channel skipping. To bridge the theoretical and practical efficiency gap, LAUDNet merges algorithmic design with scheduling optimization, guided by a latency predictor that accurately gauges dynamic operator latency. We’ve tested LAUDNet across multiple vision tasks, demonstrating its capacity to notably reduce the latency of models like ResNet-101 by over 50% on platforms such as V100, RTX3090, and TX2 GPUs. Notably, LAUDNet stands out in balancing accuracy and efficiency. Code is available at: https://www.github.com/LeapLabTHU/LAUDNet.
arxiv情報
著者 | Yizeng Han,Zeyu Liu,Zhihang Yuan,Yifan Pu,Chaofei Wang,Shiji Song,Gao Huang |
発行日 | 2024-02-20 12:36:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google