要約
ディープ ニューラル ネットワーク (DNN) は非常に高い計算能力を必要とするため、リソースに制約のあるデバイスへの導入には大きな障壁となります。
このようなデバイスには、多くの新たな深層学習アプリケーション (ドローン、ビジョンベースの医療技術など) が配置されているため、機械学習コミュニティとシステム コミュニティの両方からの多くの作業が、DNN を高速化するための最適化を提供しようと試みてきました。
これら 2 つの観点を統合するために、このホワイト ペーパーでは、ディープ ラーニング アクセラレーション スタック (DLAS) 内で機械学習とシステム技術を組み合わせ、スタック間の摂動研究によってこれらの層がどのように相互に緊密に依存できるかを示します。
2 つのデータセット、7 つの一般的な DNN アーキテクチャ、4 つの DNN 圧縮技術、スパースおよびデンス バリアントを備えた 3 つのアルゴリズム プリミティブ、未調整および自動スケジュールされたコード生成、および 4 つのハードウェア プラットフォームにわたって DLAS のさまざまなパラメーターを変更した場合の精度と推論時間への影響を評価します。
。
私たちの評価では、DLAS パラメータ間の摂動がどのように大きな変動やスタック間の相互作用を引き起こす可能性があるかを浮き彫りにしています。
私たちの評価から得られた最高レベルの観察は、モデルのサイズ、精度、推論時間の相関関係が保証されていないということです。
全体として、圧縮技術によってもたらされる高速化はハードウェアに大きく依存すること、コンパイラの自動チューニングによって、特定の構成に使用する最適なアルゴリズムが大幅に変わる可能性があることなど、13 の重要な観察が行われています。
DLAS では、機械学習とシステムの専門家がそれぞれの DNN アクセラレーション ソリューションが存在するコンテキストを推論するのに役立つ参照フレームワークを提供することを目指しています。私たちの評価により、共同設計の必要性が強く促されたため、DLAS は次のような可能性があると考えています。
これは、共同設計された次世代の高速ディープラーニング ソリューションを探求するための貴重な概念です。
要約(オリジナル)
Deep Neural Networks (DNNs) are extremely computationally demanding, which presents a large barrier to their deployment on resource-constrained devices. Since such devices are where many emerging deep learning applications lie (e.g., drones, vision-based medical technology), significant bodies of work from both the machine learning and systems communities have attempted to provide optimizations to accelerate DNNs. To help unify these two perspectives, in this paper we combine machine learning and systems techniques within the Deep Learning Acceleration Stack (DLAS), and demonstrate how these layers can be tightly dependent on each other with an across-stack perturbation study. We evaluate the impact on accuracy and inference time when varying different parameters of DLAS across two datasets, seven popular DNN architectures, four DNN compression techniques, three algorithmic primitives with sparse and dense variants, untuned and auto-scheduled code generation, and four hardware platforms. Our evaluation highlights how perturbations across DLAS parameters can cause significant variation and across-stack interactions. The highest level observation from our evaluation is that the model size, accuracy, and inference time are not guaranteed to be correlated. Overall we make 13 key observations, including that speedups provided by compression techniques are very hardware dependent, and that compiler auto-tuning can significantly alter what the best algorithm to use for a given configuration is. With DLAS, we aim to provide a reference framework to aid machine learning and systems practitioners in reasoning about the context in which their respective DNN acceleration solutions exist in. With our evaluation strongly motivating the need for co-design, we believe that DLAS can be a valuable concept for exploring the next generation of co-designed accelerated deep learning solutions.
arxiv情報
著者 | Perry Gibson,José Cano,Elliot J. Crowley,Amos Storkey,Michael O’Boyle |
発行日 | 2023-11-15 12:26:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google