DNNShifter: An Efficient DNN Pruning System for Edge Computing

要約

ディープ ニューラル ネットワーク (DNN) は、多くの機械学習アプリケーションを支えています。
実稼働品質の DNN モデルは、大量のリソース フットプリントを持つ数百万の DNN パラメータをトレーニングすることで、高い推論精度を実現します。
これは、計算リソースやメモリ リソースが限られているモバイル デバイスや組み込みデバイスなど、ネットワークの最端で動作するリソースにとって課題となります。
これに対処するために、モデルをプルーニングして、これらのデバイスに適した軽量のバリアントを作成します。
既存のプルーニング手法では、大幅な時間コストやオーバーヘッドを伴うことなく、プルーニングされていないモデルと比較して同様の品質のモデルを提供できなかったり、オフラインの使用例に限定されたりしています。
私たちの作業では、元のモデルの精度を維持しながら、適切なモデルのバリアントを迅速に導き出します。
ワークロードの需要に合わせてシステムとネットワークの状態が変化した場合、モデルのバリアントをすぐに交換できます。
このペーパーでは、上記の課題に対処するエンドツーエンドの DNN トレーニング、空間枝刈り、およびモデル切り替えシステムである DNNShifter について説明します。
DNNShifter の中心となるのは、構造化枝刈りを使用して疎モデルを枝刈りする新しい方法論です。
DNNShifter によって生成されたプルーニングされたモデルのバリアントは、以前の密モデルおよび疎モデルよりもサイズが小さいため高速であり、元の密モデルとほぼ同様の精度を維持しながら、エッジでの推論に適しています。
DNNShifter は、運用条件に応じて迅速に交換できるモデル バリアントのポートフォリオを生成します。
DNNShifter は、従来のトレーニング方法よりも最大 93 倍の速度でプルーニングされたモデル バリアントを生成します。
スパース モデルと比較して、プルーニングされたモデルのバリアントは最大 5.14 倍小さく、スパース モデルの精度を損なうことなく推論レイテンシーが 1.67 倍高速化されています。
さらに、DNNShifter は、既存のアプローチと比較して、モデル切り替えのオーバーヘッドが最大 11.9 倍低く、メモリ使用率が最大 3.8 倍低くなります。

要約(オリジナル)

Deep neural networks (DNNs) underpin many machine learning applications. Production quality DNN models achieve high inference accuracy by training millions of DNN parameters which has a significant resource footprint. This presents a challenge for resources operating at the extreme edge of the network, such as mobile and embedded devices that have limited computational and memory resources. To address this, models are pruned to create lightweight, more suitable variants for these devices. Existing pruning methods are unable to provide similar quality models compared to their unpruned counterparts without significant time costs and overheads or are limited to offline use cases. Our work rapidly derives suitable model variants while maintaining the accuracy of the original model. The model variants can be swapped quickly when system and network conditions change to match workload demand. This paper presents DNNShifter, an end-to-end DNN training, spatial pruning, and model switching system that addresses the challenges mentioned above. At the heart of DNNShifter is a novel methodology that prunes sparse models using structured pruning. The pruned model variants generated by DNNShifter are smaller in size and thus faster than dense and sparse model predecessors, making them suitable for inference at the edge while retaining near similar accuracy as of the original dense model. DNNShifter generates a portfolio of model variants that can be swiftly interchanged depending on operational conditions. DNNShifter produces pruned model variants up to 93x faster than conventional training methods. Compared to sparse models, the pruned model variants are up to 5.14x smaller and have a 1.67x inference latency speedup, with no compromise to sparse model accuracy. In addition, DNNShifter has up to 11.9x lower overhead for switching models and up to 3.8x lower memory utilisation than existing approaches.

arxiv情報

著者 Bailey J. Eccles,Philip Rodgers,Peter Kilpatrick,Ivor Spence,Blesson Varghese
発行日 2023-09-13 14:05:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.LG, I.2.1 パーマリンク