要約
2012年のAlexNetの画期的な性能以来、畳み込みニューラルネットワーク(コンボネット)は非常に強力な視覚モデルに成長した。ディープラーニングの研究者たちは、コンボネットを使用して、10年前には達成不可能だった正確な結果を生み出している。しかし、コンピューター科学者は計算効率を第一の目標としている。法外なコストを伴う正確さは許容されず、アルゴリズムは計算要件も最小化しなければならない。コンブネットが使用する膨大な計算に直面し、ディープラーニングの研究者も効率に関心を持つようになった。研究者たちは、最大の効率を持つコンブネットアーキテクチャを見つけるために多大な努力を払った。しかし、研究者やエンジニアの間では、算術的複雑さの妥当性について懐疑的な見方が広がった。レイテンシと算術的複雑さは両立しないという一般的な見解に反して、単純な公式が計算効率を通じて両者を関連付ける。この洞察により、レイテンシを決定する別々の要因を共最適化することが可能になった。我々は、最高の精度と複雑さのトレードオフを生み出す縮退conv2d層は、演算強度も低いことを観察した。したがって、これらのレイヤーを実装するカーネルは、かなりのメモリリソースを使用する。我々はこの最適化問題を、残差ブロックの全レイヤーを実装するブロックフュージョンカーネルで解決し、それにより時間的局所性を生み出し、通信を回避し、ワークスペースサイズを縮小した。ブロックフュージョンカーネルを用いた我々のConvFirstモデルは、PyTorch Inductorを用いたConvNeXtベースラインの約4倍の速度で、ImageNet-1K分類タスクにおいて同等の精度で動作した。convnetの効率化に対する我々の統一的なアプローチは、低コストでより高い精度を達成するモデルとカーネルの新しい時代を想定している。
要約(オリジナル)
Since the breakthrough performance of AlexNet in 2012, convolutional neural networks (convnets) have grown into extremely powerful vision models. Deep learning researchers have used convnets to produce accurate results that were unachievable a decade ago. Yet computer scientists make computational efficiency their primary objective. Accuracy with exorbitant cost is not acceptable; an algorithm must also minimize its computational requirements. Confronted with the daunting computation that convnets use, deep learning researchers also became interested in efficiency. Researchers applied tremendous effort to find the convnet architectures that have the greatest efficiency. However, skepticism grew among researchers and engineers alike about the relevance of arithmetic complexity. Contrary to the prevailing view that latency and arithmetic complexity are irreconcilable, a simple formula relates both through computational efficiency. This insight enabled us to co-optimize the separate factors that determine latency. We observed that the degenerate conv2d layers that produce the best accuracy-complexity trade-off also have low operational intensity. Therefore, kernels that implement these layers use significant memory resources. We solved this optimization problem with block-fusion kernels that implement all layers of a residual block, thereby creating temporal locality, avoiding communication, and reducing workspace size. Our ConvFirst model with block-fusion kernels ran approximately four times as fast as the ConvNeXt baseline with PyTorch Inductor, at equal accuracy on the ImageNet-1K classification task. Our unified approach to convnet efficiency envisions a new era of models and kernels that achieve greater accuracy at lower cost.
arxiv情報
著者 | Andrew Lavin |
発行日 | 2024-04-04 17:39:41+00:00 |
arxivサイト | arxiv_id(pdf) |